python爬虫30 | scrapy后续，把「糗事百科」的段子爬下来然后存到数据库中

2024-08-07 07:03:37

上回我们说到

WOW！！

scrapy

awesome！！

怎么会有这么牛逼的框架

wow！！

awesome！！

用 scrapy 来爬取数据

岂！不！是！非！常！爽！

wow！！

接下来就是我独享的moment

哦不

接下来就是

学习 python 的正确姿势

我们已经创建了爬取糗事百科的项目

并且把糗事百科的前两页的作者和段子爬取到 json 文件了

这次

我们将我们要爬取所有的数据

使用 scrapy 存储到 mangodb 中

在此之前还是先介绍一下我们使用 scrapy 创建出来的文件目录

各个文件代表的都是啥意思

免得又有些 b 友当场懵逼

我们从上往下依个介绍一下

这个 spiders 目录呢

就是用来存放我们写爬虫文件的地方

items.py

就是用来定义我们要存储数据的字段

middlewares.py

就是中间件，在这里面可以做一些在爬虫过程中想干的事情，比如爬虫在响应的时候你可以做一些操作

pipelines.py

这是我们用来定义一些存储信息的文件，比如我们要连接 MySQL或者 MongoDB 就可以在这里定义

settings.py

这个文件用来定义我们的各种配置，比如配置请求头信息等

以上就是 scrapy 生成的目录中主要文件的作用

接下来我们就进入代码中

我们上次创建了 QiushiSpider 来写我们的爬虫

当时我们只是获取了前两页的数据

我们要获取所有页面的数据怎么玩呢

打开糗事百科的链接可以看到

13 页的数据

其实按照以前我们直接写个 for 循环就可以了

不过我们这次还可以使用 scrapy 的 follow 函数

具体使用是这样的

我们先获取下一页的链接

由于下一页这个按钮都是在最后一个 li 标签中的

所以用 xpath 获取就这样

next_page = response.xpath('//*[@id="content-left"]/ul/li[last()]/a').attrib['href']

接着我们就可以让它去请求下一页的内容数据了

if next_page is not None: yield response.follow(next_page, callback=self.parse)

你也可以用 urljoin 的方式

# if next_page is not None: # next_page = response.urljoin(next_page) # yield scrapy.Request(next_page, callback=self.parse)

这样我们就可以获取到所有页面的数据了

接下来我们要把所有的数据保存到数据库

首先我们在 items.py 中定义一下我们要存储的字段

import scrapy

class QiushibaikeItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() content = scrapy.Field() _id = scrapy.Field()

接着我们在 parse 方法中将获取到的数据赋值给 item

具体来说就是这样

def parse(self, response):

content_left_div = response.xpath('//*[@id="content-left"]') content_list_div = content_left_div.xpath('./div')

for content_div in content_list_div: item = QiushibaikeItem() item['author'] = content_div.xpath('./div/a[2]/h2/text()').get() item['content'] = content_div.xpath('./a/div/span/text()').getall() item['_id'] = content_div.attrib['id'] yield item

next_page = response.xpath('//*[@id="content-left"]/ul/li[last()]/a').attrib['href']

if next_page is not None: yield response.follow(next_page, callback=self.parse)

第 7 行就是获取我们刚刚定义的 item 的类

8-10 行就是相应的赋值

那么我们定义好了要存储的字段以及写好了数据爬取

接下来还有一步

就是定义好我们要存储的数据库

到 pipelines.py 中

class QiushibaikePipeline(object):

def __init__(self): self.connection = pymongo.MongoClient('localhost', 27017) self.db = self.connection.scrapy self.collection = self.db.qiushibaike

def process_item(self, item, spider): if not self.connection or not item: return self.collection.save(item)

def __del__(self): if self.connection: self.connection.close()

在这里我们连接到本地的 MongoDB

建立了 scrapy 数据库及以下的 qiushibaike

接下来还要在 settings.py 文件中配置下

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { 'qiushibaike.pipelines.QiushibaikePipeline': 300,}

这样才可以使用到pipelines

当然我们还可以在 settings.py 里面做更多的设置

比如设置请求头

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.86 Chrome/73.0.3683.86 Safari/537.36'

搞定了之后

我们使用命令来抓取一下

scrapy crawl qiushibaike

运行之后

我们打开 MongoDB 看看

可以看到

所有的数据就被我爬取到 MongoDB 了

以上就是 scrapy 的简单又牛逼的操作

更多 scrapy 的牛逼操作可以前往 https://doc.scrapy.org 了解

这两篇所涉及的源代码已经上传

可以在公众号后台发送 scrapy 获取

那么

我们下回见

peace

对了

有个事

你希望接下来这个公众号能有更多什么教程

例如

爬虫实战？

ubuntu？

vim？

...?

请扫下方的码评论告诉我一下

【视频讲解】Scrapy递归抓取简书用户信息

好久没有录制实战教程视频,大邓就在圣诞节后直接上干货. 之前写过一期[视频教程-用python批量抓取简书用户信息]的文章,是自己造的轮子,今天我趁着刚入门scrapy和xpath,操刀重写这个任务. ...
【实战视频】使用scrapy写爬虫-爬知乎live

我其实很喜欢造轮子,一直没用过爬虫框架写爬虫.虽然知道爬虫很简单,scrapy框架也不难,但是在舒适区呆久了,真的不想学新东西,用新知识写爬虫. 今天我不止用新框架scrapy写爬虫,而且我还要使用s ...
Python Scrapy中文教程，Scrapy框架快速入门！

谈起爬虫必然要提起 Scrapy 框架,因为它能够帮助提升爬虫的效率,从而更好地实现爬虫. Scrapy 是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含 request ...
以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』
scrapy实践之翻页爬取

在scrapy框架中,spider具有以下几个功能 1. 定义初始爬取的url 2. 定义爬取的行为,是否跟进链接 3. 从网页中提取结构化数据所谓的跟进链接,其实就是自动爬取该页的所有链接,然后顺 ...
python爬虫29 | 使用scrapy爬取糗事百科的例子，告诉你它有多厉害！

是时候给你说说爬虫框架了使用框架来爬取数据会节省我们更多时间很快就能抓取到我们想要抓取的内容框架集合了许多操作比如请求,数据解析,存储等等都可以由框架完成有些小伙伴就要问了你他妈的 ...
全球投融资周报丨京东领投「KK集团」3亿美金融资，投后估值30亿美金；「中信科移动」完成B轮36.7...

全球投融资周报本周(07.03-07.09)全球投融资概览本周国内融资事件98起,已披露融资总规模126.52亿元.其中,医疗健康领域继续上周优势,本周获投数量依旧第一,信息通信领域有大额资本入注 ...
30张成功拍到「最搞笑一面」的野生动物照片

大家都喜欢毛茸茸的小动物,而有时候看着他们的表情,不禁会觉得真的好像人喔!来自奥地利的朱利安．雷德(Julian Rad)就是专门拍这些表情超有戏的野生动物萌照,他还因此曾获得2015年「有趣野生动物 ...
全美Top 30大学早申「面试邀约」情况汇总！康奈尔、布朗怎么不按常理出牌？

哈佛大学招生流程示意图每年,哈佛.耶鲁等顶级学府,都会收到很多"远超录取标准"的学生申请.而面试,刚好是"优中取优"的录取流程中十分关键的一环. 2020年, ...
「朱利斯」景天科拟石莲花属多肉植物，中大型非常好养品种

「朱利斯」景天科拟石莲花属多肉植物,中大型非常好养品种朱利斯拉丁学名:Echeveria 'Julius' 科属:景天科拟石莲花属朱利斯(Echeveria 'Julius' )为景天科拟石莲 ...
「周易登堂」019第十九讲六爻卦中的显爻与隐爻、显象与隐象

「周易登堂」第十九讲六爻卦中的显爻与隐爻.显象与隐象上一讲我们讲了64卦的卦变体系.我们知道,所有的卦都是由消息卦变化而来的,消息卦是所有卦的本源卦.消息卦共有十二个,这十二消息卦又自成卦变体系, ...
「Adobe国际认证」运用“对象选择”工具，在PS中快速建立选区

原标题:「Adobe国际认证」运用"对象选择"工具.在 Adobe Photoshop 快速建立选区. "对象选择"工具对象选择工具可简化在图像中选择单个对象 ...
「多功能老婆」：如果你是男人，在这三个女人中，会选谁做老婆？

似乎低估了这部TVB新剧--<多功能老婆>,主题曲满好听,带着一丝苍凉和伤感,画面唯美,剧中人物发型服饰都是用了心的,第一集有香港和日本两大拍摄地,演员阵容也不容小觑,看来这次TVB是花了 ...
「周易登堂」第三十三讲谈谈先秦经典中的大人、君子和小人

<易·革卦>爻辞中有"大人虎变"."君子豹变"."小人革面"等语,<易·观卦>爻辞中有"初六童观,小人无咎 ...

python爬虫30 | scrapy后续，把「糗事百科」的段子爬下来然后存到数据库中

相关推荐