【Scrapy 5分钟撸网站系列】爬虫目标整理和数据准备

文章目录

  • 内容介绍

  • 整理目标

  • 操作步骤

  • 效果展示

  • 总结

内容介绍

很多小伙伴爬虫做多了发现没有在开始做合理规划的情况下后期整理或者再次使用、查询的时候非常尴尬,为了避免这种尴尬的局面,很多内容要提前做好准备,也是为了后期的管理框架搭建做准备。

因此这个章节很重要,要看懂这篇文章是做什么的,为什么后面你会发现爬个网站分分钟的事。

通过这种方法整理了几万个页面进行部署管理的时候很方便。

整理目标

不管是为了搭建Django网站还是其他什么原因,整理是很重要的。为了抓取的内容通过python脚本自动化处理到这些栏目中现在Excel中构建表格。也为了后期抓取的内容整理分类方便。

先看下我的 基于Django的资源管理网站

然后看一下我们的目标网站(随便举例)

小刀娱乐网

操作步骤

1. 定义内容分类,制作Excel二级联动

Excel二级联动这个不会没关系就是后面内容手动多处理一下

2. 抓取数据列表整理

3. 手动整理列表link

4.spider中的start_menu字符串处理
首先制作表格

使用公式进行拼接成字符串

5. 直接复制到spider中的字符串

start_menu = [{"article_category_id":"1","article_item_id":"4","article_source":"小刀娱乐-绿色软件-QQ微信","article_url":"https://www.x6d.com/html/24.html",},{"article_category_id":"1","article_item_id":"5","article_source":"小刀娱乐-绿色软件-办公学习","article_url":"https://www.x6d.com/html/26.html",},{"article_category_id":"1","article_item_id":"4","article_source":"小刀娱乐-绿色软件-娱乐休闲","article_url":"https://www.x6d.com/html/29.html",},{"article_category_id":"1","article_item_id":"2","article_source":"小刀娱乐-绿色软件-系统相关","article_url":"https://www.x6d.com/html/28.html",},{"article_category_id":"1","article_item_id":"3","article_source":"小刀娱乐-绿色软件-安卓软件","article_url":"https://www.x6d.com/html/47.html",},{"article_category_id":"1","article_item_id":"1","article_source":"小刀娱乐-绿色软件-其他软件","article_url":"https://www.x6d.com/html/49.html",},{"article_category_id":"1","article_item_id":"1","article_source":"小刀娱乐-绿色软件-上传下载","article_url":"https://www.x6d.com/html/97.html",},{"article_category_id":"1","article_item_id":"3","article_source":"小刀娱乐-绿色软件-盒子应用","article_url":"https://www.x6d.com/html/102.html",},{"article_category_id":"1","article_item_id":"4","article_source":"小刀娱乐-绿色软件-游戏相关","article_url":"https://www.x6d.com/html/96.html",},{"article_category_id":"1","article_item_id":"6","article_source":"小刀娱乐-资源宝库-书籍资料","article_url":"https://www.x6d.com/html/107.html",},{"article_category_id":"1","article_item_id":"1","article_source":"小刀娱乐-资源宝库-设计资源","article_url":"https://www.x6d.com/html/108.html",},{"article_category_id":"1","article_item_id":"1","article_source":"小刀娱乐-资源宝库-剪辑资源","article_url":"https://www.x6d.com/html/109.html",},{"article_category_id":"1","article_item_id":"6","article_source":"小刀娱乐-资源宝库-办公资源","article_url":"https://www.x6d.com/html/110.html",},{"article_category_id":"1","article_item_id":"1","article_source":"小刀娱乐-资源宝库-壁纸资源","article_url":"https://www.x6d.com/html/111.html",},{"article_category_id":"1","article_item_id":"1","article_source":"小刀娱乐-资源宝库-编程资源","article_url":"https://www.x6d.com/html/113.html",},]

效果展示

  1. Navicat中效果

  2. compass中效果

总结

  1. 抓取内容列表一目了然。

  2. 方便后期栏目变换批量修改。

  3. 标准化管理列表页。

  4. spider 的 url 列表页抓取有用的信息。

  5. spider文件中根据栏目 css 样式制作不同的 parse 模块。

来源:https://www.icode9.com/content-4-846301.html

(0)

相关推荐