Python办公自动化——提取pdf文件中表格并到Excel

2024-07-28 12:55:28

需求描述

现有一 pdf 文件内容如下，文件中内容主要是表格形式的获奖名单，共158页。现要读取这些表格信息并保存到 excel 文件中。

代码示例：

import pdfplumberimport pandas as pddef read_pdf_2020(read_path, save_path): pdf_2020 = pdfplumber.open(read_path) result_df = pd.DataFrame() for page in pdf_2020.pages: table = page.extract_table() df_detail = pd.DataFrame(table[1:], columns=table[0]) # 合并每页的数据集 result_df = pd.concat([df_detail, result_df], ignore_index=True) # 删除值全部是 NaN 的列 result_df.dropna(axis=1, how='all', inplace=True) # 重置列名 result_df.columns = ['奖项', '作品编号', '作品名称', '参赛学校', '作者', '指导老师'] result_df.to_excel(excel_writer=save_path, index=False, encoding='utf-8')read_path = '2020年中国大学生计算机设计大赛参赛作品获奖名单.pdf'save_path = '2020年中国大学生计算机设计大赛参赛作品获奖名单.xlsx'df_2020 = read_pdf_2020(read_path, save_path)

运行效果：

赞 (0)

工作这么久才发现，原来PDF转Excel这么简单，学会后再也不用加班

平时在工作中大家都会遇到各种文件之间的转换格式,但是很少有人知道该怎样将文件相互转换,比如PDF转excel,很少有人知道这两个文件该如何转换,今天小黑就来教大家两个快速转换的方法. 一.excel自 ...
如何 Import 自定义的 Python 模块?

(给Python开发者加星标,提升Python技能) 来源:Be_melting https://blog.csdn.net/lys_828/article/details/106176229 [导语 ...
【Python 库】解析PDF文本及表格

pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...
如何使用python抽取pdf表格及文本，并保存到excel

pdf是一种便携式文档格式,由Adobe公司设计.因为不受平台限制,且方便保存和传输,所以pdf非常受欢迎. 目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改.转换等功能,但这部分工 ...
Python骚操作，提取pdf文件中的表格数据！

在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...
如何提取PDF文件中的表格？一个小技巧，2分钟就学会，有用

MID YEAR SUMMARY 老铁们,今天分享一个比较实用的小技巧,"如何提取PDF文件中的表格?" 方法很简单,大概2分钟就学会,请耐心往下看,相信对你以后工作有帮助. 01 ...
使用pdfminer提取PDF文件中的文字

和word文档一样,pdf文件也拥有强大的排版功能.对于pdf的编程操作而言,分为读和写两大类,其中读是相对简单的一种,比如读出pdf文件中的文字,写是比较难的,除了文字,图片等基本元素,最重要的是排 ...
怎样从PDF文件中提取表格到Excel？老司机Ctrl C，Ctrl V 5秒搞定

怎样从PDF文件中提取表格到Excel？老司机Ctrl C，Ctrl V 5秒搞定
Acrobat Pro怎么将PDF文件中的文字全部转曲?

pdf文件如果文字没有转曲,打印的时候会出现问题,比如未安装PDF中的字体就会出现字体错乱.对于印刷的东西,坏了一个文件没问题,但是拿坏了的文件去印刷而没有被发现,那就会有大问题了,别和自己的钱过不去 ...
PDF Expert使用教程：如何在Mac中删除PDF文件中的指定页面？

在Mac中PDF文件的运用还是非常多的,不过想要对PDF文件进行一些处理那就一定要有一个非常专业的PDF编辑器了. 如果我们已经安装了像是PDF Expert for Mac这样的PDF编辑器,那么想 ...
怎么样提取GHOST文件中的万能驱动包?

利用ghostxp软件即可提取,操作步骤如下: 1.下载ghostxp软件,文后提供下载: 2.运行ghostxp,点击打开,选定gho文件: 3.展开目录树,找到sysprep文件夹并点击: 4.右 ...
CAD导出PDF文件后表格变粗的处理

CAD导出PDF文件后表格变粗的处理
【Python】如何用Python来操作PDF文件，建议收藏

今天这篇文章,我们不谈热点,毕竟最近谈论的热点有点多了,也有点腻了,我们来讲一些Python运用实践当中的小技巧,用Python来操作和处理PDF文件,通过本篇文章,读者朋友大概会学会 1. 通过Py ...