构建User-Agnet代理池
在编写爬虫程序时,一般都会构建一个User-Agent(用户代理)池,就是把多个浏览器的UA信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个UA来访问网站,因为短时间内总使用一个UA高频率访问的网站,可能会引起网站的警觉,从而封杀掉IP。
自定义UA代理池
构建代理池的方法也非常简单,在您的Pycharm工作目录中定义一个ua_info.py文件,并将以下UA信息以列表的形式粘贴到该文件中,如下所示:
ua_list = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11', 'User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11', 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0', ' Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1', ' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', ]123456789101112复制代码类型:[python]
经过上述操作,用户代理池就构建成功。
模块随机获取UA
您也可以使用专门第三方的模块来随机获取浏览器UA信息,不过该模块需要单独安装,安装方式如下:
pip install fake-useragent1复制代码类型:[python]
下载安装成功后,演示如下代码:
from fake_useragent import UserAgent#实例化一个对象ua=UserAgent()#随机获取一个ie浏览器uaprint(ua.ie) print(ua.ie)#随机获取一个火狐浏览器uaprint(ua.firefox) print(ua.firefox)123456789复制代码类型:[python]
输出结果:
#随机获取ie的ua信息Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/4.0; GTB7.4; InfoPath.3; SV1; .NET CLR 3.1.76908; WOW64; en-US) Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0 #随机获取火狐的ua信息Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0Mozilla/5.0 (Windows NT 5.0; rv:21.0) Gecko/20100101 Firefox/21.0
赞 (0)