没错，我出了本书

2024-08-02 16:32:50

本文阅读需约 4 分钟

这些年我在公众号写了不少原创文章，突然有个想法，能不能把我的原创文章都采集下来，然后分好类，制作成一本妥妥的电子书，然后卖给你们。。。

哦，不！直接送给你们，用老罗的话来说就是：

交个朋友！

我觉得这事有意义，可以干！

可是，怎么干呢？

理一下思路：

我需要把所有的原创公众号的原创文章链接和标题都采集下来

接着把文章链接分好类

把它们生成 PDF 电子书

开始写篇文章装下逼

嗯嗯，可以。

如何采集原创文章

在电脑打开微信客户端，打开 Fiddler，开启抓包，然后在微信浏览器中打开公众号的历史原创文章：

这时候就可以看到请求这个页面的链接：

点进去可以看到各种请求的参数：

以及返回的 JSON 数据：

把它复制出来格式化一波：

通过一顿分析，可以发现在返回的 JSON 中：

title 字段就是文章标题

content_url 就是文章的链接

can_msg_continue=1 说明下一页还有数据

next_offset 可以获取下一页的数据量

再使用 Fiddler 模拟请求一下，发现数据正常返回：

那么接下来只要用 Python 构造一下请求所需要的 Cookie 等参数不就可以获取了么：

有了请求相关的参数，就可以获取了。

我们通过 get 请求就可以得到返回的 Json 信息，然后把它们解析出来，拿到自己想要的标题和链接，接着存到 csv 里去：

这里通过判断 can_msg_continue ，如果下一页有数据，就继续获取，直到没有为止。

执行一波：

很快，我要的数据就有了：

把链接分好类

我分享的文章中有不同的类型，比如有关于我的一些观点类的，有资源分享的，有技术教程的，有技巧的等等。

我希望每个类别可以形成一个章节，那我就只能通过标题，给它们打上 tag ：

然后在 Python 中通过 with open 把数据读取出来重新排好序，放到 list 里面去：

把公众号生成 PDF 电子书

有了链接列表，可以使用 pdfkit 的 from_url 方法，将它们生成 pdf ，但这样直接去使用会有问题。

一来是公众号图片做了懒加载和防盗链，像这样：

二来是现在抓取到文章的链接里面有很多不必要的东西，直接使用 pdfkit.from_url 会报错，特别是你列表链接很多的时候：

那咋办呢？

理一下思路：

请求每个链接，拿到具体文章

将其中的图片引用 data-src 改为 src

使用正则表达式，只获取文章内容和格式

将它们重构为新的 HTML

将所有重新整理好的 HTML 文件存储到本地并生成一个 file_list

使用 pdk.from_file 生成 pdf 文件

这里在生成 pdf 可以传入 options 和 toc 参数，用来做一些生成 pdf 的配置，比如生成电子书的目录 toc，可以引用 xsl：

在这里面就可以定义自己想要的样式，比如我可以判断如果标题含有 Chapter，我就给目录加个背景颜色：

至此，整个流程就搞完了，运行起来就可以生成一本电子书。

接下来，前方高能预警：

光目录就 16 页，整本书 1900+ 页，蹲再多次马桶也够看了。

你觉得这本书值多少钱？反正我就是想送给你，交个朋友。

进入公众号，发送「帅书」，直接拿下。

希望对你有帮助，那么我们下回见，peace！

【目录】本公众号2018年推送的文章

盘点了一下2018年写作的文章,一共写了八十五篇,这些文章都是根据<偷懒的技术>读者群大家的提问围绕相应的知识点写作而成,都很实用.如果大家掌握这些文章中的知识点,工作效率会大大提高. 老 ...
ABBYY软件对PDF文件中级操作—链接与书签

在ABBYY FineReader PDF 15软件中,小编将创建链接和书签.对PDF文件内容进行搜索.审阅及编辑等操作称之为中级操作,其原因主要是这些操作都必须在文本图层上进行.所以设置背景识别非常 ...
汇总100个格式错乱的PDF表格，用Excel就够了，秒杀所有付费软件

汇总100个表头顺序不同的PDF表格.职场中遇到这样的问题会让很多人感到头皮发麻,即使是 "职场老鸟"也不例外.很多人都能想到的方法就是利用付费软件将PDF一个一个的转换为Exce ...
如何给PDF设置可跳转目录的2种方法

如果PDF文档页面比较多,给文件设置目录不仅可以使主要内容一目了然,更重要是可通过点击快速查看对应内容,那么怎么才能给PDF制作目录并跳转呢? 首先我们来了解一下PDF的目录,除了常见的类似于Word ...
关于微信后台求书的说明

另外,求书基本上有两种情况:一种是本公众号上发过链接的书,链接失效了,这种情况下我会整理相关的链接重新发给您:一种是本公众号上没有发过的书,您想看的话,只需要提供准确而详细的信息(尽量跟语文和教育有关 ...
Word怎么自动生成目录？能自动更新的那种！

最近发现许多小伙伴留言问如何生成目录,让我教一下.其实,易老师以前就有教过大家.今天,我又重新整理了一下,用最简单的方法来教下大家,不会的小伙伴可要仔细看了! 1. 设置多级列表我们先进入「开始」- ...
想哪儿说哪儿---每次出发带本书

多年习惯,每次出发带本书.2013年8月19日至23日,领导安排我到江苏学习,随身带了一册<非常梅兰芳>. 出发带书两大好处.火车.飞机误点,或车上机上空闲,读 ...
“熟悉的人出第一本书，都会支持讨个彩头。”

♪ 点击上方绿标,即可收听音频 01 前天与朋友溪儿的聊天中,她无意中谈到只要是相熟的人,出第一本书都会买本支持下,可能数量不多,但就觉得要讨个彩头. 网络上写手千千万万,能在一个微信群或者存在于彼 ...
文笔好到幼儿园水平的她，也敢说自己出了本书？

对,我把自己写的文字印成了一本书. 真的,有图有真相,且听我从头讲起. 知道一个平台,能一键成书,轻点鼠标,日常发布的零散图文即刻自动排版成书,生活点滴时光华丽变身你的专属"时光书&qu ...
改革开放有多难 ——从出两本书谈起

改革开放的总设计师邓小平,在绘制这张宏伟蓝图之初,躬身实践,亲自邀请两位世界级工商巨子--香港的世界船王包玉刚和美国的石油大王哈默,来中国看一看并帮助中国建设. 此后不久,当两位工商巨子先后来到北京的 ...
44岁农妇逃离家庭，一边摆摊一边写作，菜市场里写出两本书

文丨魏芙蓉编辑丨王姗视频剪辑|张歆玥摘要:44岁的小贩陈慧一边在菜市场摆摊,一边写小镇故事.写了11年,攒下的故事成百上千,出了两本书.数十年的写作背后,是一个农村女人争夺自由的故事.从饭桌.到 ...
这个爸爸拍女儿C位出道，签尼康见汪涵上外媒当名作，现在出第二本书啦！

作者:腰果&猪圆糖粉编号:000324 上海糖粉枫糖盒子特约讲师个人主页:http://jojo.kidsfoto.net 微博:@李梦鱼今天又要羡慕 "别人家的爸爸&quo ...
一生写9万张卡片，30年出58本书，他的读书笔记法你一定要知道

文/平淡如水后台回复"写作",加入写作群德国著名社会学家尼可拉斯·卢曼曾经说过这样一句话:"不写,就无法思考." 写的过程就是思考的过程. 卢曼教授每天坚持 ...
以我的见识看不出这本书的深浅，有懂的朋友可以评评

:38
DayDayUp：本博主预计2019下半年将会出两本书(关于人工智能算法及其实战案例应用方向、计算机算法竞赛集锦方向)，如有合作意向，请留言告知

DayDayUp:本博主预计2019下半年将会出两本书(关于人工智能算法及其实战案例应用方向.计算机算法竞赛集锦方向),如有合作意向,请留言告知 PS:禁止任何形式的知识盗取!! 关于人工智能算法及其 ...

没错，我出了本书

如何采集原创文章

把链接分好类

把公众号生成 PDF 电子书

相关推荐