给你们说几点鲜有人知的爬虫技巧

2024-05-08 18:51:49

关于爬虫可以用到的技巧

只要技巧使用得当

那么尽管姿势再多

也能感到爽爽的了

那么，如何才能爽呢？

接下来就是

学习python的正确姿势

技巧一

换个角度，解锁新姿势

我知道

你在爬取某些 web 网站的时候

被各种反爬弄得哭天喊地

什么几把 css 字体加密

什么几把 js 的 MD5 等

各种乱七八糟的加密

什么几把各种飞的验证码

这时候

就别太执着于 web PC 端嘛

咱们去看看人家的移动端

看看人家的 H5

在爬取前可以问问对方：

“在吗？看看 H5”

可能你会在移动端发现惊喜

数据都是一样的数据

冤冤相报何时了

技巧二

夜太美，爬虫就没那么危险

在爬取的时候

不要猛攻嘛～

人家受不了啊

你要学会停顿

克制一点

该 sleep 就 sleep

要趁人家睡觉的时候

限制防范程度低的时候

能晚点就晚点再去爬

没看过凌晨四点的洛杉矶

但是你可以看到凌晨四点的爬虫啊

这样你买的 IP 才不会频繁被封

技巧三

善用他人的 UA

如果你去看别人网站的 robots.txt

你就会看到别人的声明

声明什么东西是可以爬取

什么东西是不允许被爬的

但你常常忽略了一个东西

人家声明了希望给什么搜索引擎爬

比如这个

看到没

这是别人定义的 robots

值得注意的是

尚亮亮的 User-agent

那么当你在 Python 构造 Header 的时候

User-agent 就直接指定他们 robots 定义的就好了啊

比如百度的UA，google的UA，360的UA

你再去爬取看看

那是一个友好啊

技巧四

插件让你节省时间

有时候我们要拿一些关键的数据

往往会用到 xpath、css selctor 之类的

自己一个一个去比对获取

那就太麻烦了啊

还记得之前说得这个吗？

吐血分享这两个爬虫用到的 Chrome 牛逼插件

记得用起来呀

技巧五

那 Header 快速生成吧

每一次你在复制 request header 的时候

是不是有一大串有的没的

又不得不复制过来

在你的 Python 中使用

可是

格式又不对

每次操作很麻烦是不？

那你可以自己写一个方法

参数就是你复制的 header 字符串

然后生成 header 的字典格式

不就完事了

技巧六

爬取整站其实是这样的

有时候你想爬取整个网站的url

怎么办呢？

不是去首页一个一个抓

你应该找到对方的 sitemap.xml

因为网站一般希望 Google 或者百度快点收录他们的网站

所以他们会把自己的网站的 url 生成 sitemap 提交

这个时候 sitemap 就包含了这个网站所有可爬取的 url

sitemap一般在网站的根目录下

可以在他们的 robots.txt 看看他们指定的位置

比如猫眼电影的sitemap：

从而获取 sitemap 再去请求里面的 url 即可！

ojbk

以上就是小帅b

给你分享的爬虫技巧

希望对你有帮助

那么我们下回见

peace

扫一扫

学习 Python 没烦恼

Python网络爬虫相关基础概念！

网络爬虫是Python应用领域之一,也是很多学生比较关注的问题,今天就为大家介绍一下Python网络爬虫相关基础概念. 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够 ...
你要偷偷的学Python，然后惊呆所有人（第七天）

标题无意冒犯,就是觉得这个广告挺好玩的文章目录前言欢迎来到我们的圈子初见爬虫为什么是爬虫通用爬虫架构爬虫的工作步骤优秀爬虫的特性 1.高性能 2.可扩展性 3.健壮性 4.友好性爬虫 ...
【杂谈】爬虫基础与快速入门指南

【杂谈】爬虫基础与快速入门指南
网络爬虫是什么

网络爬虫又称网络蜘蛛.网络机器人,它是一种按照一定的规则自动浏览.检索网页信息的程序或者脚本.网络爬虫能够自动请求网页,并将所需要的数据抓取下来.通过对抓取的数据进行处理,从而提取出有价值的信息. 认 ...
推荐一款小众且好用的 Python 爬虫库

推荐一款小众且好用的 Python 爬虫库
教你自己搭建一个ip池(绝对超好用！！！！)

随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看. 不返回数据,而且还甩一句话是不是很熟悉啊? 要想想看,人是怎么访问网站的? 发请求,对,那么就会带有 request.h ...
哥哥凭《伪装者》成名，弟弟获得影帝，却鲜有人知他们竟是亲兄弟

可能大家也都知道娱乐圈里的很多明星其实都是有亲戚关系的,比如陈凯歌和陈赫,又比如蒋雯丽和马思纯,而我们今天要说的这两位演员更是同胞兄弟,他们兄弟二人都是非常优秀的演员,拍摄了很多能够彰显演技的影视作品 ...
鲜有人知的科学冷知识，史前地球有两个月亮，未来地球有两个太阳

地球自转周期,地球公转周期,地球不同地方的经纬度等等常见的地球小知识相信大多数朋友还是知晓的.那么关于地球的一些冷门知识你知道多少呢? 第一,你知道吗?地球的南北磁极其实不是一直固定不变的,它在某时刻 ...
盘点月球上鲜有人知的秘密，知道其中一点，你就是科学达人

哈喽,终于等到您,还好我没放弃!您终于来了!愿看文章的你,都能被这个世界温柔以待!愿你三冬暖,愿你春不寒:愿你天黑有灯,下雨有伞:愿你一路上,有良人相伴!喜欢就点个赞吧,欢迎评论.吐槽. 随着科技越来 ...
这20句诗明明这么美，却被误解千年，鲜有人知其真意！

古人灵感乍现,大笔一挥, 写下流传千古的诗词名言, 历经千百年的岁月变迁, 很多诗词已没了当初的意境, 有的被误用,有的被滥用, 有人说这是创新, 有人说这是无知, 不知你怎么看? 今日,特地选了些 ...
聊斋志异里鲜有人知的故事诸城某甲

诸城某甲原文:学师孙景夏先生言:其邑中某甲者,值流寇乱,被杀,首坠胸前.寇退,家人得尸,将舁瘗之.闻其气缕缕然;审视之,咽不断者盈指. 遂扶其头,荷之以归.经一昼夜始呻,以匕箸稍稍哺饮食,半年竟愈. ...
浙江21座鲜有人知的绝美古村落，犹如走进时光隧道

在青山环抱里,落日映红了村庄的砖瓦, 搬个板凳坐小院里,和邻居聊着家长里短, 直到夜色笼罩灯火通明, 这样的乡村生活,你向往吗? 近日,<2018年浙江省老年养生旅游示范基地>拟认定名单出 ...
中国股市鲜有人知的秘密: 捕捉黑马股的心得, 背熟它轻而易举稳抓涨停黑马牛股！

林老师论股选股是每个投资者都需要经历的过程,而每个投资者的选股方法则不尽相同,根据庄家动向选股也是一种不错的选股方法,庄家可以对股价形成强大的控制力和影响力,因此,跟庄选股是一种较为便捷的获利选股方 ...
鲜有人知的郑板桥《兰亭序》！

2019-05-27 08:36:02·书法易罕见!扬州八怪之一的郑板桥写<兰亭序>,并不算太怪,还是蛮认真的,而且,别有一番意趣.我们一起来欣赏:
“浙江国宝”！这座鲜有人知的江南古村，跨越千年却依旧美若初见

三面环山,南部有一条溪流,自山中流下,环绕村落,蜿蜒汇入大楠溪江水系.西南有芙蓉崖,奇峰耸立,状若含苞待放之芙蓉. 位于楠溪江畔的芙蓉古村简直就是藏在深闺的"桃花源". @周锦盛 ...

给你们说几点鲜有人知的爬虫技巧

相关推荐