Python进阶系列:Python遍历的秘密

前言

可迭代对象,迭代器,生成器,相信许多学习Python的小伙伴或多或少都听说过,但你真的知道他们的区别吗?真的知道为什么需要这些概念吗?

本文带你深入了解一系列相关机制,不仅告诉你概念,还告诉你为什么需要这些概念,让你可以举一反三。

本文重点

  • Python在for遍历时做了什么?
  • 为什么需要迭代器?
  • 生成器为什么不能重复使用?
  • Python的动态协议,不一样的迭代实现。

本文字数2000+,不适合初学者,阅读本文需要你有以下Python基础知识:

  • 认识列表(list)
  • for循环等基本语法。
  • 自定义类型,方法。

原创不容易,请点击右上方关注按钮,多多支持~

for循环没有你想象中的那么简单

能够看到这里的小伙伴必定已经很熟悉for循环,但你可能不知道Python在背后为你做了许多事情。

用一个简单例子来说明一下,当前有一个列表,里面装着4个数字,我们需要把数字逐一打印出来。

如下图,分别用两种方式实现:

  • 行5-行7,第一种方式,通过索引访问列表
  • 行10-行11,直接通过for遍历。
  • 大家有想过吗?为什么第二种方法,不需要一个变量 i 来记录当前读取位置呢。

答案是,不管什么方式,其实都需要在遍历过程保持一个状态值,以表示现在遍历到哪个元素

但是为什么我们平时使用的for循环却不需要呢?

因为Python在for循环之前静悄悄地做了以下事情:

  • 行10,这里是遍历的开始。但别以为 Python 是直接向 nums 拿数值。
  • 在遍历开始之前,Python 会先问 nums 拿一个叫迭代器的东西。
  • 然后每次都问这个迭代器拿数值,然后把数值赋给变量 n 。

我们来看看示意图:

  • Python 通过 iter(nums) 拿到一个迭代器,然后才开始遍历。
  • 第一次遍历时,会问迭代器拿一个元素,然后把元素赋值给变量 n 。
  • 整个过程,iter 执行了一次,next 执行了4次。
  • 之前说的状态值 i ,其实就保存在迭代器中。
  • 以上的步骤从代码上是看不到的。

可以看到,迭代器就是为了保存遍历状态而设定的。

迭代器的由来

你可能会疑惑,为什么多此一举,非要弄一个所谓的迭代器出来?

可以把状态值 i ,保存在列表对象中啊。

答案是,因为在嵌套for遍历的时候,需要两个for的状态值 i 是独立分开的。

看下图:

  • 如果状态值 i 直接保存在列表对象中,那么这里的嵌套遍历就乱套了。
  • 可见,这里 Python 会为我们创建了2个独立的迭代器,独立维护了2个状态值 i 。

上面例子中,列表 nums 称为'可迭代对象'

说白了,迭代器就是用于维护一个遍历过程中的状态数据。

不是任何对象都有迭代器的

以上就是迭代器的由来,但似乎目前为止我们都没看到迭代器是个啥样。

通过下图的代码,来看看迭代器吧:

  • 行22,通过 iter 方法从列表 nums 中获取一个迭代器。
  • 行26,通过 next 方法从迭代器 tor 中获取一个值。
  • 行24-行29,就是整个遍历的过程。
  • 行28,当列表中的值都被取出来后,在行26 中再次问 tor 获取值的时候,就会出现 StopIteration 的错误。

重点归纳一下:

  • 如果一个类正确实现了 __iter__ 方法,那么这个对象叫'可迭代对象'
  • 可以通过 iter 方法从可迭代对象身上获取一个迭代器
  • 迭代器是一个正确实现 __next__ 方法的对象。
  • 迭代器的状态是无法重置,只能向前。一旦遍历完毕,则无法再次使用
  • 例子中, nums 列表是一个可迭代对象

题外话:实际上迭代器还正确实现了 __iter__ 方法,不过这个方法只是简单地返回迭代器自身。

生成器其实就是一种迭代器

所谓的生成器,指定的是一种不断生成输出东西的事物,同样地可以通过 next 方法从生成器上获取输出。

是不是与迭代器的概念不谋而合?那又是为什么弄这样的一个概念出来?

生成器的特点

  • 生成器的数据来源与迭代器不一样。
  • 行48-行51,生成器的来源不一定是可迭代对象,他可以是一个不断输出值的函数。
  • 行45,因此,生成器有着迭代器一样的性质。不能重复使用。

真的需要 __iter__ 才是可迭代对象吗?

Python中的协议不像Java或C#这么严格,当一个对象实现了 __getitem__ 方法,并且可以从0索引开始访问元素时,同样也可以迭代他。

如下:

  • 行62,实现了 __getitem__ 方法,就是让这个对象可以通过诸如 mn[0] 这样的方式去获取元素。
  • Python 在 for 循环时,发现 MyNums 虽然没实现 __iter__ 方法,但有 __getitem__ 方法,那么自然可以通过维护一个状态索引值 i ,不断调用 __getitem__ 方法实现遍历的效果。

小结

  • 我们平时经常使用的列表,元组,字典等集合,他们都是可迭代对象。
  • 迭代器在 Python 中被定义为'只读向前',一旦使用完毕,则不能再次使用。
  • 生成器就是一种迭代器,因此拥有迭代器同样的性质与限制。
  • 当自定义类型需要可迭代时,实现 __iter__ 方法。
  • 如果没有实现 __iter__ 方法,那么实现 __getitem__ 方法也是可以支持迭代。

如果觉得本文对你有所帮助,记得关注、评论、转发、收藏噢~ 私信我'python',即可获得按水平领域分类好的Python资料,还会不定期更新有用的Python技巧。

(0)

相关推荐