初窥Python的import机制

https://m.toutiao.com/is/JEaoVFc/

本文适合有 Python 基础的小伙伴进阶学习

作者:pwwang

一、前言

本文基于开源项目:

https://github.com/pwwang/python-import-system

补充扩展讲解,希望能够让读者一文搞懂 Python 的 import 机制。

1.1 什么是 import 机制?

通常来讲,在一段 Python 代码中去执行引用另一个模块中的代码,就需要使用 Python 的 import 机制。import 语句是触发 import 机制最常用的手段,但并不是唯一手段。

importlib.import_module 和 __import__ 函数也可以用来引入其他模块的代码。

1.2 import 是如何执行的?

import 语句会执行两步操作:

  1. 搜索需要引入的模块

  2. 将模块的名字作为变量绑定到局部变量中

搜索步骤实际上是通过 __import__ 函数完成的,而其返回值则会作为变量被绑定到局部变量中。下面我们会详细聊到 __import__ 函数是如果运作的。

二、import 机制概览

下图是 import 机制的概览图。不难看出,当 import 机制被触发时,Python 首先会去 sys.modules 中查找该模块是否已经被引入过,如果该模块已经被引入了,就直接调用它,否则再进行下一步。这里 sys.modules 可以看做是一个缓存容器。值得注意的是,如果 sys.modules 中对应的值是 None 那么就会抛出一个 ModuleNotFoundError 异常。下面是一个简单的实验:

In [1]: import sysIn [2]: sys.modules['os'] = NoneIn [3]: import os---------------------------------------------------------------------------ModuleNotFoundError                       Traceback (most recent call last)<ipython-input-3-543d7f3a58ae> in <module>----> 1 import osModuleNotFoundError: import of os halted; None in sys.modules

如果在 sys.modules 找到了对应的 module,并且这个 import 是由 import 语句触发的,那么下一步将对把对应的变量绑定到局部变量中。

如果没有发现任何缓存,那么系统将进行一个全新的 import 过程。在这个过程中 Python 将遍历 sys.meta_path 来寻找是否有符合条件的元路径查找器(meta path finder)。sys.meta_path 是一个存放元路径查找器的列表。它有三个默认的查找器:

  • 内置模块查找器

  • 冻结模块(frozen module)查找器

  • 基于路径的模块查找器。

In [1]: import sysIn [2]: sys.meta_pathOut[2]: [_frozen_importlib.BuiltinImporter, _frozen_importlib.FrozenImporter, _frozen_importlib_external.PathFinder]

查找器的 find_spec 方法决定了该查找器是否能处理要引入的模块并返回一个 ModeuleSpec 对象,这个对象包含了用来加载这个模块的相关信息。如果没有合适的 ModuleSpec 对象返回,那么系统将查看 sys.meta_path 的下一个元路径查找器。如果遍历 sys.meta_path 都没有找到合适的元路径查找器,将抛出 ModuleNotFoundError。引入一个不存在的模块就会发生这种情况,因为 sys.meta_path 中所有的查找器都无法处理这种情况:

In [1]: import nosuchmodule---------------------------------------------------------------------------ModuleNotFoundError                       Traceback (most recent call last)<ipython-input-1-40c387f4d718> in <module>----> 1 import nosuchmoduleModuleNotFoundError: No module named 'nosuchmodule'

但是,如果这个手动添加一个可以处理这个模块的查找器,那么它也是可以被引入的:

In [1]: import sys   ...:    ...: from importlib.abc import MetaPathFinder   ...: from importlib.machinery import ModuleSpec   ...:    ...: class NoSuchModuleFinder(MetaPathFinder):   ...:     def find_spec(self, fullname, path, target=None):   ...:         return ModuleSpec('nosuchmodule', None)   ...:    ...: # don't do this in your script   ...: sys.meta_path = [NoSuchModuleFinder()]   ...:    ...: import nosuchmodule---------------------------------------------------------------------------ImportError                               Traceback (most recent call last)<ipython-input-6-b7cbf7e60adc> in <module>     11 sys.meta_path = [NoSuchModuleFinder()]     12 ---> 13 import nosuchmoduleImportError: missing loader

可以看到,当我们告诉系统如何去 find_spec 的时候,是不会抛出 ModuleNotFound 异常的。但是要成功加载一个模块,还需要加载器 loader。

加载器是 ModuleSpec 对象的一个属性,它决定了如何加载和执行一个模块。如果说 ModuleSpec 对象是“师父领进门”的话,那么加载器就是“修行在个人”了。在加载器中,你完全可以决定如何来加载以及执行一个模块。这里的决定,不仅仅是加载和执行模块本身,你甚至可以修改一个模块:

In [1]: import sys   ...: from types import ModuleType   ...: from importlib.machinery import ModuleSpec   ...: from importlib.abc import MetaPathFinder, Loader   ...:    ...: class Module(ModuleType):   ...:     def __init__(self, name):   ...:         self.x = 1   ...:         self.name = name   ...:    ...: class ExampleLoader(Loader):   ...:     def create_module(self, spec):   ...:         return Module(spec.name)   ...:    ...:     def exec_module(self, module):   ...:         module.y = 2   ...:    ...: class ExampleFinder(MetaPathFinder):   ...:     def find_spec(self, fullname, path, target=None):   ...:         return ModuleSpec('module', ExampleLoader())   ...:    ...: sys.meta_path = [ExampleFinder()]In [2]: import moduleIn [3]: moduleOut[3]: <module 'module' (<__main__.ExampleLoader object at 0x7f7f0d07f890>)>In [4]: module.xOut[4]: 1In [5]: module.yOut[5]: 2

从上面的例子可以看到,一个加载器通常有两个重要的方法 create_module 和 exec_module 需要实现。如果实现了 exec_module 方法,那么 create_module 则是必须的。如果这个 import 机制是由 import 语句发起的,那么 create_module 方法返回的模块对象对应的变量将会被绑定到当前的局部变量中。如果一个模块因此成功被加载了,那么它将被缓存到 sys.modules。如果这个模块再次被加载,那么 sys.modules 的缓存将会被直接引用。

三、import 勾子(import hooks)

为了简化,我们在上述的流程图中,并没有提到 import 机制的勾子。实际上你可以添加一个勾子来改变 sys.meta_path 或者 sys.path,从而来改变 import 机制的行为。上面的例子中,我们直接修改了 sys.meta_path。实际上,你也可以通过勾子来实现:

In [1]: import sys   ...: from types import ModuleType   ...: from importlib.machinery import ModuleSpec   ...: from importlib.abc import MetaPathFinder, Loader   ...:    ...: class Module(ModuleType):   ...:     def __init__(self, name):   ...:         self.x = 1   ...:         self.name = name   ...:    ...: class ExampleLoader(Loader):   ...:     def create_module(self, spec):   ...:         return Module(spec.name)   ...:    ...:     def exec_module(self, module):   ...:         module.y = 2   ...:    ...: class ExampleFinder(MetaPathFinder):   ...:     def find_spec(self, fullname, path, target=None):   ...:         return ModuleSpec('module', ExampleLoader())   ...:    ...: def example_hook(path):   ...:     # some conditions here   ...:     return ExampleFinder()   ...:    ...: sys.path_hooks = [example_hook]   ...: # force to use the hook   ...: sys.path_importer_cache.clear()   ...:    ...: import module   ...: moduleOut[1]: <module 'module' (<__main__.ExampleLoader object at 0x7fdb08f74b90>)>

四、元路径查找器(meta path finder)

元路径查找器的工作就是看是否能找到模块。这些查找器存放在 sys.meta_path 中以供 Python 遍历(当然它们也可以通过 import 勾子返回,参见上面的例子)。每个查找器必须实现 find_spec 方法。如果一个查找器知道怎么处理将引入的模块,find_spec 将返回一个 ModuleSpec 对象(参见下节)否则返回 None。

和之前提到的一样 sys.meta_path 包含三种查找器:

  • 内置模块查找器

  • 冻结模块查找器

  • 基于路径的查找器

这里我们想重点聊一聊基于路径的查找器(path based finder)。它用于搜索一系列 import 路径,每个路径都用来查找是否有对应的模块可以加载。默认的路径查找器实现了所有在文件系统的特殊文件中查找模块的功能,这些特殊文件包括 Python 源文件(.py 文件),Python 编译后代码文件(.pyc 文件),共享库文件(.so 文件)。如果 Python 标准库中包含 zipimport,那么相关的文件也可用来查找可引入的模块。

路径查找器不仅限于文件系统中的文件,它还可以上 URL 数据库的查询,或者其他任何可以用字符串表示的地址。

你可以用上节提供的勾子来实现对同类型地址的模块查找。例如,如果你想通过 URL 来 import 模块,那么你可以写一个 import 勾子来解析这个 URL 并且返回一个路径查找器。

注意,路径查找器不同于元路径查找器。后者在 sys.meta_path 中用于被 Python 遍历,而前者特指基于路径的查找器。

五、ModuleSpec 对象

每个元路径查找器必须实现 find_spec 方法,如果该查找器知道如果处理要引入的模块,那么这个方法将返回一个 ModuleSpec 对象。这个对象有两个属性值得一提,一个是模块的名字,而另一个则是查找器。如果一个 ModuleSpec 对象的查找器是 None,那么类似 ImportError: missing loader 的异常将会被抛出。查找器将用来创建和执行一个模块(见下节)。

你可以通过 <module>.__spec__ 来查找模块的 ModuleSpec 对象:

In [1]: import sysIn [2]: sys.__spec__Out[2]: ModuleSpec(name='sys', loader=<class '_frozen_importlib.BuiltinImporter'>)

六、加载器(loader)

加载器通过 create_module 来创建模块以及 exec_module 来执行模块。通常如果一个模块是一个 Python 模块(非内置模块或者动态扩展),那么该模块的代码需要在模块的 __dict__ 空间上执行。如果模块的代码无法执行,那么就会抛出ImportError 异常,或者其他在执行过程中的异常也会被抛出。

绝大多数情况下,查找器和加载器是同一个东西。这种情况下,查找器的 find_spec 方法返回的 ModuleSpec 对象的 loader 属性将指向它自己。

我们可以用 create_module 来动态创建一个模块,如果它返回 None Python 会自动创建一个模块。

七、总结

Python 的 import 机制灵活而强大。以上的介绍大部分是基于官方文档,以及较新的 Python 3.6+ 版本。由于篇幅,还有很多细节并没有包含其中,例如子模块的加载、模块代码的缓存机制等等。文章中也难免出现纰漏如果有任何问题,欢迎到开 issue 提问及讨论。

(0)

相关推荐

  • 非常干货:Python 探针实现原理

    作者丨mozillazg https://segmentfault.com/a/1190000004889212 本文呢,将简单讲述一下 Python 探针的实现原理.同时为了验证这个原理,我们也会一 ...

  • 涨见识了,在终端执行 Python 代码的 6 种方式!

    原作:BRETT CANNON 译者:豌豆花下猫@Python猫 英文:https://snarky.ca/the-many-ways-to-pass-code-to-python-from-the- ...

  • CommonJS 和 ES6 Module 究竟有什么区别?

    作为前端开发者,你是否也曾有过疑惑,为什么可以代码中可以直接使用 require 方法加载模块,为什么加载第三方包的时候 Node 会知道选择哪个文件作为入口,以及常被问到的,为什么 ES6 Modu ...

  • python之路—模块和包

    阅读目录 一 模块 3.1 import 3.2 from ... import... 3.3 把模块当做脚本执行 3.4 模块搜索路径 3.5 编译python文件 二 包 2.2 import 2 ...

  • Traceback具体使用方法

    Traceback具体使用方法详解,首先在之前做Java的时候,异常对象默认就包含stacktrace相关的信息,通过异常对象的相关方法printStackTrace()和getStackTrace( ...

  • python中import如何使用

    https://m.php.cn/article/471651.html相关免费学习推荐:python视频教程https://www.php.cn/course/list/30.html使用pytho ...

  • 初窥古法针灸

    导读针灸有心法,必得师承授验,方能有效若桴鼓针入痛止之效,本文介绍古法针灸,知其病之由来,经络所过,交经巨刺.疏导穴道配以动气针法,取效甚捷. 有一些同道看过"台湾针灸四大派"一文 ...

  • 初窥章节书:我花一年时间给娃读了26本章节书

    我花了一年时间给娃读了一套共计26本章节书,前年双十一剁的手,去年双十一后一个月收的官.把第26本书放回书架时,心中颇有些踌躇满志.之所以能把这一套书坚持读下来,首先是超爸本人的毅力(本人较瘦.蛮力没 ...

  • 面试题-python 垃圾回收机制?

    前言 简历上写着熟悉 python 面试官上来就问:说下python 垃圾回收机制?一盆冷水泼过来,瞬间感觉 python 不香了. Python中,主要通过引用计数(Reference Counti ...

  • 《仰望星空》12 - 初窥银河

    1846年9月23日,德国柏林天文台台长加勒收到一封陌生人的来信,发信人叫做勒维耶.信中这么写道:尊敬的台长,请在9月23日晚上,将望远镜对准摩羯座δ星之东约5度的地方,你就能找到一颗新的行星,它的圆 ...

  • 初窥Web前端工程化:web-pack核心组件设计

    上期回顾 先来回顾一下,在上期内容里,川哥为我们揭示了当下前端编译打包工具都是运行再Node环境下的,开发者是离不开编辑器IDE.编译打包这些工具. 但如何离开Node环境,前端开发者又该怎么办呢,此 ...

  • 初窥藏毯之美

    关于毯的解释:"毛,其古文字形体像毛发,表示用毛织成的坐具或卧具:炎,炎有热义,表示垫上的毛毯比较暖和.本意是毛席.毛毯." 地毯,又名地衣,最早问世于盛产羊毛的古代游牧民族.中国 ...

  • 第 111 天:Python 垃圾回收机制

    众所周知,Python 是一门面向对象语言,在 Python 的世界一切皆对象.所以一切变量的本质都是对象的一个指针而已. Python 运行过程中会不停的创建各种变量,而这些变量是需要存储在内存中的 ...

  • 【广发宏观贺骁束】6月经济初窥

    报告摘要 第一,6月全球新增确诊整体延续下行趋势,6月19日当周相较5月末环比回落逾28%.其中英国新增确诊有所反弹,非洲的上升趋势亦引发关注.发达国家疫苗接种进度加速,截至6月16日德国.英国.法国 ...

  • 进入武陵源,初窥天子山:四天畅游张家界(1)

    荆楚行记之九:四天畅游张家界(1) 本次荆楚之行的第九站,是张家界.张家界是世界自然遗产地,景区大,景点多,我们共安排了四天时间.我们队伍里有一位玩自助游的大伽,名李建玲,号卧虎藏龙,为了把这场旅游之 ...