以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

2024-08-03 03:17:29

前言

作为爬虫一员，掌握一门爬虫框架是必备技能，因此作为一名小白的你，我想向你推荐『Scrapy』。

具体『Scrapy』是什么，作用这些就不啰嗦（都是废话，百度有Scrapy简介），时间宝贵，就直接上干货（实战案例带你体验scrapy的使用）。

下面会以『B站』为目标进行实战！

Scrapy入门实战

1.环境准备

安装scrapy

pip install scrapy

通过上面这个命令即可直接安装好scrapy库

2.建立scrapy项目

scrapy startproject Bili

通过上面这个命令可以建立一个项目名称：Bili 的爬虫项目。

这里就可以在桌面建立了一个名字为：Bili 的爬虫项目

项目结构

Bili ├── Bili │ ├── __init__.py │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── __pycache__ │ ├── settings.py │ └── spiders │ ├── __init__.py │ └── __pycache__ └── scrapy.cfg

各个文件作用

scrapy.cfg：项目的总配置文件，通常无须修改。

Bili：项目的 Python 模块，程序将从此处导入 Python 代码。
Bili/items.py：用于定义项目用到的 Item 类。Item 类就是一个 DTO（数据传输对象），通常就是定义 N 个属性，该类需要由开发者来定义。

Bili/pipelines.py：项目的管道文件，它负责处理爬取到的信息。该文件需要由开发者编写。

Bili/settings.py：项目的配置文件，在该文件中进行项目相关配置。

Bili/spiders：在该目录下存放项目所需的蜘蛛，蜘蛛负责抓取项目感兴趣的信息。

3.明确爬取内容

https://search.bilibili.com/all?keyword=%E8%AF%BE%E7%A8%8B&page=2

以上面链接为例（B站），爬取视频的标题（title）和链接（url）

4.定义项目中每一个类

Items类

import scrapy

class BiliItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #pass # 视频标题 title = scrapy.Field() # 链接 url = scrapy.Field()

爬取字段是视频的标题（title）和链接（url），所以对于了title和url两个变量

定义spider类

spider类作用是自定义网页解析规则（新建scrapy项目是没有的，需要自己新建）。

Scrapy 为创建 Spider 提供了 scrapy genspider 命令，该命令的语法格式如下：

scrapy genspider [options] <name> <domain>

在命令行窗口中进入 Bili 目录下，然后执行如下命令即可创建一个 Spider：

scrapy genspider lyc 'bilibili.com'

运行上面命令，即可在 Bili 项目的 Bili /spider 目录下找到一个 lyc.py 文件
编辑lyc.py

import scrapyfrom Bili.items import BiliItemclass LycSpider(scrapy.Spider):    name = 'lyc'    allowed_domains = ['bilibili.com']    start_urls = ['https://search.bilibili.com/all?keyword=课程&page=2']    # 爬取的方法    def parse(self, response):        item = BiliItem()        # 匹配        for jobs_primary in response.xpath('//*[@id='all-list']/div[1]/ul/li'):            item['title'] = jobs_primary.xpath('./a/@title').extract()            item['url'] = jobs_primary.xpath('./a/@href').extract()            # 不能使用return            yield item        # pass

修改pipeline类

这个类是对爬取的文件最后的处理,一般为负责将所爬取的数据写入文件或数据库中.。
这里我们将它输出到控制台.

from itemadapter import ItemAdapter

class BiliPipeline: def process_item(self, item, spider): print('title:', item['title']) print('url:', item['url'])

修改settings类

BOT_NAME = 'Bili'SPIDER_MODULES = ['Bili.spiders']NEWSPIDER_MODULE = 'Bili.spiders'# Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'Bili (+http://www.yourdomain.com)'# Obey robots.txt rulesROBOTSTXT_OBEY = True# 配置默认的请求头DEFAULT_REQUEST_HEADERS = {    'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = {    'Bili.pipelines.BiliPipeline': 300,}

一个 Scarpy项目的简单架构就完成了我们可以运行一下试试.

启动项目

scrapy crawl lyc

但只有一页的内容 , 我们可以解析下一页 .
将以下代码加到 lyc.py

import scrapyfrom Bili.items import BiliItemclass LycSpider(scrapy.Spider):    name = 'lyc'    allowed_domains = ['bilibili.com']    start_urls = ['https://search.bilibili.com/all?keyword=课程&page=2']    # 爬取的方法    def parse(self, response):        item = BiliItem()        # 匹配        for jobs_primary in response.xpath('//*[@id='all-list']/div[1]/ul/li'):            item['title'] = jobs_primary.xpath('./a/@title').extract()            item['url'] = jobs_primary.xpath('./a/@href').extract()            # 不能使用return            yield item        # 获取当前页的链接        url = response.request.url        # page +1        new_link = url[0:-1]+str(int(url[-1])+1)        # 再次发送请求获取下一页数据        yield scrapy.Request(new_link, callback=self.parse)

下一页爬取

【视频讲解】Scrapy递归抓取简书用户信息

好久没有录制实战教程视频,大邓就在圣诞节后直接上干货. 之前写过一期[视频教程-用python批量抓取简书用户信息]的文章,是自己造的轮子,今天我趁着刚入门scrapy和xpath,操刀重写这个任务. ...
列举几个简单的例子来更好的理解scrapy工作的原理

说明:了解爬虫的可能都会知道,在爬虫里,requests入门简单,即使是没有基础的小白,学个几天也能简单的去请求网站,但是scrapy就相对来说就比较难,本片文章能是列举几个简单的例子去理解的scra ...
干货！一文教会你 Scrapy 爬虫框架的基本使用

原创投稿君 Python数据之道收录于话题 #读者投稿 28 #Python干货分享 2 #Python 11 #项目实战 20 出品:Python数据之道 (ID:PyDataLab) 作者:叶 ...
【实战视频】使用scrapy写爬虫-爬知乎live

我其实很喜欢造轮子,一直没用过爬虫框架写爬虫.虽然知道爬虫很简单,scrapy框架也不难,但是在舒适区呆久了,真的不想学新东西,用新知识写爬虫. 今天我不止用新框架scrapy写爬虫,而且我还要使用s ...
爬虫框架Scrapy（1）Scrapy基础1

一. Scrapy框架简介 Scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由 Scrapinghub Ltd 维护.Scrapy 简单易用.灵活易拓展.开 ...
scrapy 爬取网上租房信息

一.背景为了分析一线城市的房价在工资的占比,我用Python分别爬取了自如以及拉勾的数据.(见公众号「Crossin的编程教室」今天第1条推送) 本文使用 scrapy 进行爬取自如所有城市的租房信 ...
scrapy终端常用命令

scrapy命令行一.默认的scrapy项目结构 scrapy.cfgmyproject/ __init__.py items.py pipelines.py setting ...
以某乎为实战案例，教你用Python爬取手机App数据

以某乎为实战案例，教你用Python爬取手机App数据
【药店实战案例】教你如何化解顾客提出的各种问题！

药店:老师,前段时间我买了一套您的<联合用药及关联销售宝典>课程,现在已经在学习了,真的收益匪浅!现在明显顾客回头率高了,客单价提升也非常明显. 老师:很好,说明你认真学了. 药店:前两天 ...
基金投资实战，手把手教你查询ETF每日持仓，投资新手一学就会

基金投资实战，手把手教你查询ETF每日持仓，投资新手一学就会
10套案例手把手教你模流分析报告参数怎么看怎么分析（共81页）

模流分析(moldflow)这个概念源自于台湾那边的叫法,实际上就是指运用数据模拟软件,通过电脑完成注塑成型的模拟仿真,模拟模具注塑的过程,得出一些数据结果,通过这些结果对模具的方案可行性进行评估,完 ...
python处理音频信号实战：手把手教你实现音乐流派分类和特征提取

1986年出版的<音乐心理学>一书中说到"人类和音乐遵循共同的规律".研究发现,人类大脑的生理信号具有带直线区域的线性规律,在生理上具有普遍性,产生公式:S(f) 1 ...
『经方集』慢性腹泻经方案例

王付经方研究院程某,男,8岁,郑州人,其母代诉,有形体消瘦,大便溏泻3年余,近因朋友介绍前来诊治.刻诊:形体消瘦,面色萎黄,动则汗出,大便溏泻5-6次/日,时有腹痛,身体发热(体温正常),不喜言语,易 ...
『经方集』三叉神经痛经方案例

赵某,女,32岁,郑州人,有多年三叉神经痛病史,经多次检查未发现明显病理变化,近因疼痛加重前来诊治.刻诊:两侧头痛如针刺,因风加重,怕冷,痛则恶心欲呕及烦躁不安,口干,舌质暗红,苔黄白夹杂略腻,脉浮: ...
『经方集』肾性高血压经方案例

吴某,男,48岁,郑州人,有多年慢性肾小管肾炎病史,2年前又诊断为肾性高血压,近因病证(185/150mmHg)加重前来诊治.刻诊:腰痛腰酸,耳鸣,头晕目眩,目胀,自汗,盗汗,心痛如刺,手足不温,怕冷 ...
『经方集』抑郁症经方案例

范某,女,37岁,新乡人,有3年抑郁症病史,近因病证加重前来诊治.刻诊:胸胁胀闷,表情沉默,善哭多悲,失眠.多恶梦,心悸,烦躁,怕冷,手足厥逆,夜间小便多,舌质淡,苔薄白,脉沉弱:辨为心肾阳气虚证与心 ...