Python进阶系列:Python遍历的秘密
前言
可迭代对象,迭代器,生成器,相信许多学习Python的小伙伴或多或少都听说过,但你真的知道他们的区别吗?真的知道为什么需要这些概念吗?
本文带你深入了解一系列相关机制,不仅告诉你概念,还告诉你为什么需要这些概念,让你可以举一反三。
本文重点
- Python在for遍历时做了什么?
- 为什么需要迭代器?
- 生成器为什么不能重复使用?
- Python的动态协议,不一样的迭代实现。
本文字数2000+,不适合初学者,阅读本文需要你有以下Python基础知识:
- 认识列表(list)
- for循环等基本语法。
- 自定义类型,方法。
原创不容易,请点击右上方关注按钮,多多支持~
for循环没有你想象中的那么简单
能够看到这里的小伙伴必定已经很熟悉for循环,但你可能不知道Python在背后为你做了许多事情。
用一个简单例子来说明一下,当前有一个列表,里面装着4个数字,我们需要把数字逐一打印出来。
如下图,分别用两种方式实现:
- 行5-行7,第一种方式,通过索引访问列表
- 行10-行11,直接通过for遍历。
- 大家有想过吗?为什么第二种方法,不需要一个变量 i 来记录当前读取位置呢。
答案是,不管什么方式,其实都需要在遍历过程保持一个状态值,以表示现在遍历到哪个元素。
但是为什么我们平时使用的for循环却不需要呢?
因为Python在for循环之前静悄悄地做了以下事情:
- 行10,这里是遍历的开始。但别以为 Python 是直接向 nums 拿数值。
- 在遍历开始之前,Python 会先问 nums 拿一个叫迭代器的东西。
- 然后每次都问这个迭代器拿数值,然后把数值赋给变量 n 。
我们来看看示意图:
- Python 通过 iter(nums) 拿到一个迭代器,然后才开始遍历。
- 第一次遍历时,会问迭代器拿一个元素,然后把元素赋值给变量 n 。
- 整个过程,iter 执行了一次,next 执行了4次。
- 之前说的状态值 i ,其实就保存在迭代器中。
- 以上的步骤从代码上是看不到的。
可以看到,迭代器就是为了保存遍历状态而设定的。
迭代器的由来
你可能会疑惑,为什么多此一举,非要弄一个所谓的迭代器出来?
可以把状态值 i ,保存在列表对象中啊。
答案是,因为在嵌套for遍历的时候,需要两个for的状态值 i 是独立分开的。
看下图:
- 如果状态值 i 直接保存在列表对象中,那么这里的嵌套遍历就乱套了。
- 可见,这里 Python 会为我们创建了2个独立的迭代器,独立维护了2个状态值 i 。
上面例子中,列表 nums 称为'可迭代对象'
说白了,迭代器就是用于维护一个遍历过程中的状态数据。
不是任何对象都有迭代器的
以上就是迭代器的由来,但似乎目前为止我们都没看到迭代器是个啥样。
通过下图的代码,来看看迭代器吧:
- 行22,通过 iter 方法从列表 nums 中获取一个迭代器。
- 行26,通过 next 方法从迭代器 tor 中获取一个值。
- 行24-行29,就是整个遍历的过程。
- 行28,当列表中的值都被取出来后,在行26 中再次问 tor 获取值的时候,就会出现 StopIteration 的错误。
重点归纳一下:
- 如果一个类正确实现了 __iter__ 方法,那么这个对象叫'可迭代对象'
- 可以通过 iter 方法从可迭代对象身上获取一个迭代器。
- 迭代器是一个正确实现 __next__ 方法的对象。
- 迭代器的状态是无法重置,只能向前。一旦遍历完毕,则无法再次使用。
- 例子中, nums 列表是一个可迭代对象。
题外话:实际上迭代器还正确实现了 __iter__ 方法,不过这个方法只是简单地返回迭代器自身。
生成器其实就是一种迭代器
所谓的生成器,指定的是一种不断生成输出东西的事物,同样地可以通过 next 方法从生成器上获取输出。
是不是与迭代器的概念不谋而合?那又是为什么弄这样的一个概念出来?
生成器的特点
- 生成器的数据来源与迭代器不一样。
- 行48-行51,生成器的来源不一定是可迭代对象,他可以是一个不断输出值的函数。
- 行45,因此,生成器有着迭代器一样的性质。不能重复使用。
真的需要 __iter__ 才是可迭代对象吗?
Python中的协议不像Java或C#这么严格,当一个对象实现了 __getitem__ 方法,并且可以从0索引开始访问元素时,同样也可以迭代他。
如下:
- 行62,实现了 __getitem__ 方法,就是让这个对象可以通过诸如 mn[0] 这样的方式去获取元素。
- Python 在 for 循环时,发现 MyNums 虽然没实现 __iter__ 方法,但有 __getitem__ 方法,那么自然可以通过维护一个状态索引值 i ,不断调用 __getitem__ 方法实现遍历的效果。
小结
- 我们平时经常使用的列表,元组,字典等集合,他们都是可迭代对象。
- 迭代器在 Python 中被定义为'只读向前',一旦使用完毕,则不能再次使用。
- 生成器就是一种迭代器,因此拥有迭代器同样的性质与限制。
- 当自定义类型需要可迭代时,实现 __iter__ 方法。
- 如果没有实现 __iter__ 方法,那么实现 __getitem__ 方法也是可以支持迭代。
如果觉得本文对你有所帮助,记得关注、评论、转发、收藏噢~ 私信我'python',即可获得按水平领域分类好的Python资料,还会不定期更新有用的Python技巧。