如何扫书?
这次来说说扫书的方法。
网上有卖那种无损扫书的扫描仪,跟台灯样的,看了下感觉效果不太好。
其实咕鸽内部有一个小团队在很早的时候做过一个「Linear Book Scanner(线性书本扫描仪)」的开源项目,可以无损且高质量的扫描图书,有兴趣的可以在 U2B 上搜索相关的视频。但限于没有直接购买的零件,这个扫书的方法也就只能看看而已。
思来想去,对于飞扣这种普通人来讲,还是用有损的传统方法扫书得了。大不了买三本,一本自扫一本传教一本收藏,,,
一、裁书
有人对裁书可能有一定的抵触心理。其实转念想想,与其把书毕恭毕敬地供在书架上吃灰,不如拆了更为方便的吸收书里写的知识,因为书的存在本质就是为了传播知识的,只要这个目的达到了就 OK。飞扣记得李敖等一些大师都会把书拆了读,只不过李敖不是把书做成电子版,而是用文件夹把不同的书的相似的内容分门别类地夹在一起,整理起来。在电子化之后,「整理」这个步骤会更加方便。
裁书需要将书脊一刀切掉,需要用到那种大的裁纸刀(有点像古代的铡刀),当然还有自动的、更为专业的箱式电动裁纸机,一般在打字复印店能找得到(他们用来装订小册子用)。把书提过去,跟他们谈好价格,就可以帮你把书脊裁掉了。
裁纸机大致的样子(图片来自网络)
两个小贴士:
一般情况下,不要害怕裁纸机的刀片裁多了,把字给切掉了。让师傅多裁 3mm~5mm 左右都没问题。反倒是裁少了的话,书脊那一面会残留用来固定的胶水,极容易发生前后页粘连的情况,在扫描时会发生重叠、卡纸,非常的不便(飞扣的教训很深……)。
因为裁书的需求太少了,几乎每个师傅都会问你用来做啥。多说无益,反正飞扣就说用来方便做笔记做总结的。
裁好之后的效果如下:
二、扫描
如果有专业的箱式扫描仪当然更好了!但对于个人的话,那些装备可能不太现实。飞扣在网上找了一圈之后,锁定了富士通(Fujitsu)的两款扫描仪:S1500 和 iX500。S1500 被称为穷逼扫书神器,原因很简单:便宜!因为这款已经停产了,在马爸爸家花不到 5 张毛爷爷就能买到这款洋垃圾。相比之下,iX500 价格在 2K 左右。虽说电子产品是买新不买旧,但怎奈囊里无钞,飞扣最终还是买的 S1500 的洋垃圾。有闲钱的土豪可以选择一步到位入 iX500。
洋垃圾皂片:
富士通 S1500
连上电脑,下载驱动。这里 S1500 的驱动可以直接用 iX500 的。安装好之后,调节扫描参数就能扫描了,跟用打印机差不多。
有两个注意点:
注意纸张要旋转一下再放入扫描仪,如下图所示:
每次扫描最多扫50页纸,一本书可以分多次扫描,后期再合为一个文件。
回到电脑上。扫描参数的调节在右下角的「S」图标上右键,然后进入「Scan 按钮设置」。
(如果事后发现设置没有被应用,可以再去「ScanSnap Folder 的设置」中再设置一下参数。)
点进去后即可设置扫描的精度。飞扣用的是「最佳」,然后再在后面使用软件处理。如果想要省时间的话,可以选择「超精细」。
其他参数可动可不动。
飞扣使用的参数如下(注意红框内的参数设置!):
想省时间的可以选择「超精细」
一切就绪后,点击扫描仪上的 Scan 按钮就可以开始扫描啦!
扫描得到的 PDF 文件保存在「我的文档」中的「图片」里面。(当然,你可以在「保存」选项卡里修改这个保存路径。)
如果中途卡纸,飞扣的建议是:排除问题,然后这部分全部重新扫一遍。
三、后期处理
需要的软件
ABBYY PDF Transformer+
Adobe Acrobat Pro
合并文件
由于上文中提到的 50 页的扫描限制,最后会得到多个 PDF 文件。我们使用 ABBYY PDF Transformer+ 来合并。
【注意!笔者个人 强烈建议 不要 在所谓「abbyychina.com」上购买(就是搜索结果最前面的那个)。获取软件的渠道很多,若要支持正版,建议去 abbyy 的官方网站。更多细节请百度「马克丁」。】
打开软件,选择 「Create from multiple files」:
选择需要合并的文件。由于文件是自动以「日期-时间」的方式命名的,在导入的过程中会按照扫描的顺序自动排序,不需要担心顺序的问题。
点击确定,软件就会自动为你合并好了。
现在不急着点保存,我们进行下一步「倾斜校正」。
倾斜校正
由于扫描仪的机械缺陷,我们得到的扫描结果可能会歪那么个一两度,虽然不妨碍阅读,但是看着别扭啊!
我们接着使用 PDF Transformer 中的「增强图像」功能来自动修复扫描产生的倾斜。
选择 File --> Enhance Image...
按照下图中的设置,取消勾选红框两个选项,然后点击 Apply 即可。软件会自动修复图片的倾斜。(时间可能会比较长,而且这个操作比较占用 CPU,需要保持耐心。飞扣是用这个时间上了个厕所……)
经过漫长的等待之后,软件会重新打开一个界面,这个界面就是修复好的文件。此时就可以点击 Save 保存了。
此时文件的分辨率(DPI)是 600dpi,一般只需要 300dpi 即可。降低分辨率可以很好的压缩文件的体积。
先用 600dpi 高精度扫描再用软件降低到 300dpi 的做法,比直接用 300dpi 扫的效果要好很多。
压缩文件
我们使用 Adobe Acrobat Pro 进行压缩。
在 Acrobat 中打开上面校正过的文件,选择 工具 --> 优化 PDF --> 高级优化,按照下方红框中的参数设置好后,点击确定即可。
压缩后的效果(一页书局部放大):
一本近 500页 的书,合并前大小为 526M,压缩后大小为 163M,清晰度可以接受。
收尾
接下来我们可以将 PDF 上传到云服务(百度云、OneDrive 等等)中,然后利用手机、平板等随时随地的查看文件了。
推荐使用 iPad Pro 12.9 寸看书,结合 iPencil 做笔记效果更佳!
〇、起因
纸质书太重了!
曾几何时,飞扣被狗东的【图书满200-100、满400-300】等等促销活动冲昏了头脑,银行卡里的钱不断拿出来孝敬强子哥和奶茶妹。直到要毕业搬家时,才突然发现已经攒了两大纸箱的书,而且一大半都没有看过!实在惭愧。等到搬家时更加惭愧:书重到搬家师傅的脸色十分难看,幸好有大拖车,不然可能会被不爽的师傅漫天要价。
书搬回来是一个问题,如何方便的阅读又是一个问题。由于大减价凑的单大多是大部头书,总不能随手就揣一本出去读,顺便防身用。并且有时候读书是兴头来了,突然就想在某个时间某个地点读某一本特定的书,拦都拦不住,等兴头减灭了,即便书放在面前也不愿意翻开。在这种限制条件下,纸质书的缺点十分明显。
当然,纸质书的优缺点已经有太多人写了,飞扣在此就不再重复唠叨。飞扣的想法很简单:随时随地可以看书、做笔记。
一些问题的解释
为什么不使用 OCR(识别图中文字) 功能?
答:有些文件压缩的方法是结合 OCR 技术,将扫描的图片信息(大文件)转换成图片与文字信息相结合(小文件)的文件。国外也有扫书爱好者在扫完后使用 OCR 对里面的文字进行识别。问题在于:国外的西文字母识别简单,而汉字识别所需要的技术更为复杂,识别成功率尚不能让人十分满意,并且对于一些技术类书籍,其中夹杂有表格、英文、公式、图片,结构复杂,OCR 的效果也不太好,干脆不用。这样扫出来的文件怎么这么大?还有几百 M 的?有些 PDF 怎么只有两三 M?
答:因为扫描仪扫出来的本质上是图片(JPG),一张 JPG 图片确实有两三百来 K,一本书有多少面,就有多少张图片,加在一起就变成几十上百 M 了。那些两三 M 的 PDF 要么是纯文字版可复制的,要么是清晰度非常垃圾的扫描版。文字版和扫描版哪个好?
答:当然是文字版好啦!文字版的来源要么是官方发布的电子书,要么是爱好者专门人工校对的(当然也有直接用机器 OCR 不校对就发出来的垃圾版),有的还带有注释,不管是阅读还是做笔记都非常的方便。飞扣是不是喜欢某一本书就买来扫成电子版?
答:不是。因为飞扣很穷,飞扣在看到一本想读的书之前,会先用度娘 / 咕鸽搜索一下,看是否有现成的资源(不管是文字版还是扫描版)。如果没有的话,再去马爸爸家看看有没有卖电子版的(一些卖 D 版的店,你问一下也可能会有电子版)。如果以上都找不到的话,老老实实支持正版啦!这样扫书有无法律风险?
答:飞扣认为只要坚持三个原则——不公开传播、不用来牟利、闷声那啥啥,就没有什么大问题。
最后感谢阅读!