获取用户代理的多种方式

用户代理可以将普通的爬虫请求伪装成浏览器发出的请求,从而绕过目标网站的反扒机制。获取用户代理,最基本的方式就是在自己的浏览器中进行查看,图示如下

这样的方式简洁直观,但是只能获取有限个用户代理,毕竟一般人的电脑上都只有屈指可数的浏览器。

当需要构建一个数量庞大的用户代理池时,一个个获取用户代理的方式显然不可取,此时,我们就需要借助第三方工具来实现

1.  python 模块

python的生态环境包容万物,自然也有人提供了对应功能的模块。首先就是Faker这个模块,该模块用于提供高质量的随机数据,提供用户代理只是它其中一小部分的功能,用法如下

>>> from faker import Faker
>>> f = Faker()
>>> f.chrome()
'Mozilla/5.0 (Linux; Android 7.1) AppleWebKit/532.2 (KHTML, like Gecko) Chrome/39.0.821.0 Safari/532.2'
>>> f.chrome()
'Mozilla/5.0 (Windows 98; Win 9x 4.90) AppleWebKit/532.0 (KHTML, like Gecko) Chrome/23.0.862.0 Safari/532.0'
>>>
>>> f.firefox()
'Mozilla/5.0 (Windows NT 4.0; be-BY; rv:1.9.1.20) Gecko/2018-04-10 04:32:05 Firefox/3.6.1'
>>>
>>> f.internet_explorer()
'Mozilla/5.0 (compatible; MSIE 9.0; Windows 98; Win 9x 4.90; Trident/3.1)'
>>>
>>> f.opera()
'Opera/9.32.(Windows NT 6.0; dv-MV) Presto/2.9.164 Version/10.00'
>>>
>>> f.safari()
'Mozilla/5.0 (Windows; U; Windows 98) AppleWebKit/535.30.3 (KHTML, like Gecko) Version/5.1 Safari/535.30.3'
>>>
>>> f.user_agent()
'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_1; rv:1.9.6.20) Gecko/2016-09-11 17:33:17 Firefox/3.6.3'
调用简单,支持谷歌,火狐,IE等多款浏览器,与python爬虫程序完美嵌合。

2. 浏览器插件

浏览器插件极大地丰富了浏览器的功能,构建了庞大的插件生态。在谷歌浏览器中,用一款插件,提供了用户代理的切换和管理功能,名称如下

启动该插件之后,可以看到多个用户代理信息,可以在其之中进行切换,图示如下

python模块提供的用户代理随机性很大,涵盖了多种操作系统和浏览器,而浏览器插件则可以选择特定操作系统和浏览器,可以根据需要,灵活选取这两种方式。
·end·
(0)

相关推荐