使用pdfminer提取PDF文件中的文字

2024-04-20 17:23:18

和word文档一样，pdf文件也拥有强大的排版功能。对于pdf的编程操作而言，分为读和写两大类，其中读是相对简单的一种，比如读出pdf文件中的文字，写是比较难的，除了文字，图片等基本元素，最重要的是排版的样式控制，而编程还无法满足样式的灵活性。

本文主要介绍pdf读取操作中的一种应用，从PDF文件中提取文字，可以通过pdfminer模块来实现，安装方式如下

pip install pdfminer

该模块同时还提供了一种，命令行的脚本程序，可以方便的提取pdf中的文字，用法如下

python pdf2txt.py input.pdf

如果提取出文字之后，需要进一步操作，最好还是通过脚本对程序进行处理，在脚本中实现文字提取的代码如下

>>> from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

>>> from pdfminer.converter import TextConverter

>>> from pdfminer.pdfpage import PDFPage

>>> rsrcmgr = PDFResourceManager()

>>> outfp = open('pdf.text', 'w', encoding='utf-8')

>>> device = TextConverter(rsrcmgr, outfp)

>>> with open('input.pdf', 'rb') as fp:

...     interpreter = PDFPageInterpreter(rsrcmgr, device)

...     for page in PDFPage.get_pages(fp):

...         interpreter.process_page(page)

...

>>> device.close()

>>> outfp.close()

只需要简单的十几行代码，就可以提取出对应的文字，然后再根据需求进行后续处理，比如将提取出的文字, 利用python-docx模块输入到word文档中，从而实现pdf到word文档的转换，也可以提取pdf中的表格文字，写入到excel中。

·end·

赞 (0)

高昂收费？你距离免费PDF编辑工具只差20行Python代码

PDF(Portable Document Format,可携带文档格式)是一种以PostScript语言图像模型为基础,在不同电脑.打印机上都能够保持固定的格式.正是因为它这一特性,让PDF备受欢迎 ...
两行代码读取pdf、docx文件

最近运行课件代码,发现pdf文件读取部分的函数失效.这里找到读取pdf文件的可运行代码,为了方便后续学习使用,我已将pdf和docx读取方法封装成pdfdocx包. pdfdocx 只有简单的两个读取 ...
读取pdf和docx文件，亲测有效

做文本数据处理,我最怕遇到pdf和docx,一旦遇到了,都是双手开启无影指模式狂按快捷键.按的手抽,按的崩溃. 今天我大师兄查哥搞定了pdf文件的读取,知道此事后异常欣喜.在此基础上,我查找了docx ...
第107天： Python 解析 PDF

上次给大家介绍了 Python 如何操作 Word 和 Excel ,而今天想为大家再介绍下,用 Python 如何解析 PDF ,PDF 格式不像前面两个那么规范,从它的表现来看,它更像是一张图片, ...
python读取pdf中的文本

python处理pdf也是常用的技术了,对于python3来说,pdfminer3k是一个非常好的工具. pip install pdfminer3k 首先,为了满足大部分人的需求,我先给一个通用一点 ...
PDF 转 WORD，直接编辑图片文字，这个新功能绝了！

你曾经有过对着一份 PDF 束手无策的感觉吗? 你尝试过各种过网上各种 PDF 转WORD的工具吗? 你有过试用所有 PDF 转换器后,发现没一个好用的崩溃经历吗? (
Python骚操作，提取pdf文件中的表格数据！

在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...
如何提取PDF文件中的表格？一个小技巧，2分钟就学会，有用

MID YEAR SUMMARY 老铁们,今天分享一个比较实用的小技巧,"如何提取PDF文件中的表格?" 方法很简单,大概2分钟就学会,请耐心往下看,相信对你以后工作有帮助. 01 ...
Acrobat Pro怎么将PDF文件中的文字全部转曲?

pdf文件如果文字没有转曲,打印的时候会出现问题,比如未安装PDF中的字体就会出现字体错乱.对于印刷的东西,坏了一个文件没问题,但是拿坏了的文件去印刷而没有被发现,那就会有大问题了,别和自己的钱过不去 ...
Python办公自动化——提取pdf文件中表格并到Excel

需求描述现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中. 代码示例: import pdfplumberimport ...
pdf文件中的文字怎么编辑？靠谱办法必须get

这是众所周知的一件事情:与word格式的文档相比较,pdf格式的文件明显更难以编辑(但它的安全性高,也便于传阅,这2个特点让它频繁见于我们的办公生活中),要修改其中文字内容的话,要使用专门的pdf编辑 ...
怎样从PDF文件中提取表格到Excel？老司机Ctrl C，Ctrl V 5秒搞定

怎样从PDF文件中提取表格到Excel？老司机Ctrl C，Ctrl V 5秒搞定
PDF Expert使用教程：如何在Mac中删除PDF文件中的指定页面？

在Mac中PDF文件的运用还是非常多的,不过想要对PDF文件进行一些处理那就一定要有一个非常专业的PDF编辑器了. 如果我们已经安装了像是PDF Expert for Mac这样的PDF编辑器,那么想 ...
怎么样提取GHOST文件中的万能驱动包?

利用ghostxp软件即可提取,操作步骤如下: 1.下载ghostxp软件,文后提供下载: 2.运行ghostxp,点击打开,选定gho文件: 3.展开目录树,找到sysprep文件夹并点击: 4.右 ...
word多文档合并技巧视频：插入文本对象文件中的文字快速合并文档

word多文档合并技巧视频|word快速合并文档视频|word插入文本对象视频|插入文件中的文字视频本视频教程由部落窝教育分享.