Python爬虫自动化办工实战案例
Python爬虫自动化办工实战案例
----借助xlwings实现excel调用Python爬虫
前言
本案例将实现excel集成用户自定义Python函数(xlwings UDFs),并从excel中通过调用函数,轻松爬取对应微博博文的转评赞数据。
1. excel安装xlwings
首先在命令行窗口,卸载掉原来可能存在的xlwings
pip uninstall xlwingsconda uninstall xlwings
- 1
- 2
- 3
- 1
- 2
- 3
在命令行窗口下载并安装xlwings
pip install xlwings
1
1
安装excel插件
xlwings addin install
- 1
- 1
关于xlwings作者就不再过多说明,简短来说,xlwings插件可以让我们在excel中轻松运行Python程序。
2. excel设置
打开任意一个excel表单,选择“文件”–>“选项”:自定义功能区,选择开发工具–>“信任中心”–>“信任中心设置”–>“宏设置”:启用所有宏+信任对VBA工程对象模型的访问。
3. 建立excel表单
在一个适合的地方(例如桌面),新建一个excel表单,另存为.xlsm文件。
建立一个后缀为.py的Python文件用于我们编写Python代码。
4. 设置.xlsm文件
设置xlwings选项卡:Interpreter中填写pythonw.exe的路径,PYTHONPATH填写要调用的python文件所在文件夹,UDF Modules填写.py文件的名字(不带后缀),勾选RunPython: Use UDF Server。
当我们在excel中借助xlwings插件调用Python程序时,插件会借助PYTHONPATH提供的路径,找到UDF Modules中的文件,进行调用。
5. 编写Python爬虫程序
打开我们的weibodata.py,稍微改写下我们上一个案例中的程序,修改成getpost(url)函数,用于获取转发数。
import xlwings as xwimport bs4 # 网页解析,获得数据import re # 正则表达式,进行文字匹配import urllib.request,urllib.error # 指定URL,获取网页数据from bs4 import BeautifulSoup@xw.funcdef getpost(weibo_url): head = { # 模拟浏览器头部信息 'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1' } request = urllib.request.Request(weibo_url, headers=head) html = '' try: response = urllib.request.urlopen(request) html = response.read().decode('utf-8') except urllib.error.URLError as e: if hasattr(e, 'code'): print(e.code) if hasattr(e, 'reason'): print(e.reason) soup = BeautifulSoup(html, 'html.parser') item = soup.find_all('script') item = str(item) findrepost = re.compile(r''reposts_count': (.*?),') repo = re.findall(findrepost, item) return repo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
需要注意的是:
import xlwings as xw@xw.func
- 1
- 2
- 1
- 2
这两句一定要加上。
6. 设置excel
选择开发工具中的查看代码,选择工具,引用。
勾选xlwings。
回到excel的xlwings选项卡,点击Import Functions。到此为止,我们的Python程序就已经被集成为一个excel函数了。
至此,便完成了本次项目。