Python如何实现从PDF文件中爬取表格数据（代码示例）

本篇文章给大家带来的内容是关于python如何实现从pdf文件中爬取表格数据（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。
本文将展示一个稍微不一样点的爬虫。
以往我们的爬虫都是从网络上爬取数据，因为网页一般用html,css,javascript代码写成，因此，有大量成熟的技术来爬取网页中的各种数据。这次，我们需要爬取的文档为pdf文件。本文将展示如何利用python的camelot模块从pdf文件中爬取表格数据。
在我们的日常生活和工作中，pdf文件无疑是最常用的文件格式之一，小到教材、课件，大到合同、规划书，我们都能见到这种文件格式。但如何从pdf文件中提取其中的表格，这却是一个大难题。因为pdf中没有一个内部的表示方式来表示一个表格。这使得表格数据很难被抽取出来做分析。那么，我们如何做到从pdf中爬取表格数据呢？
答案是python的camelot模块！
camelot是python的一个模块，它能够让任何人轻松地从pdf文件中提取表格数据。可以使用以下命令安装camelot模块（安装时间较长）：
pip install camelot-py
camelot模块的官方文档地址为：https://camelot-py.readthedoc...。
下面将展示如何利用camelot模块从pdf文件中爬取表格数据。
例1 首先，让我们看一个简单的例子：eg.pdf，整个文件只有一页，这一页中只有一个表格，如下：
使用以下python代码就可以提取该pdf文件中的表格：
import camelot# 从pdf文件中提取表格tables = camelot.read_pdf('e://eg.pdf', pages='1', flavor='stream')# 表格信息print(tables)print(tables[0])# 表格数据print(tables[0].data)
输出结果为：
<tablelist n=1><table shape=(4, 4)>[['id', '姓名', '城市', '性别'], ['1', 'alex', 'shanghai', 'm'], ['2', 'bob', 'beijing', 'f'], ['3', 'cook', 'new york', 'm']]
分析代码，camelot.read_pdf()为camelot的从表格中提取数据的函数，输入的参数为pdf文件的路径，页码（pages）和表格解析方法（有stream和lattice两个方法）。对于表格解析方法，默认的方法为lattice，而stream方法默认会把整个pdf页面当做一个表格来解析，如果需要指定解析页面中的区域，可以使用table_area这个参数。
camelot模块的便捷之处还在于它提供了将提取后的表格数据直接转化为pandas，csv，json，html的函数，如tables[0].df，tables[0].to_csv()函数等。我们以输出csv文件为例：
import camelot# 从pdf文件中提取表格tables = camelot.read_pdf('e://eg.pdf', pages='1', flavor='stream')# 将表格数据转化为csv文件tables[0].to_csv('e://eg.csv')
得到的csv文件如下：
例2 在例2中，我们将提取pdf页面中的某一区域的表格的数据。pdf文件的页面（部分）如下：
为了提取整个页面中唯一的表格，我们需要定位表格所在的位置。pdf文件的坐标系统与图片不一样，它以左下角的顶点为原点，向右为x轴，向上为y轴，可以通过以下python代码输出整个页面的文字的坐标情况：
import camelot# 从pdf中提取表格tables = camelot.read_pdf('g://statistics-fundamentals-succinctly.pdf', pages='53', \                          flavor='stream')# 绘制pdf文档的坐标，定位表格所在的位置tables[0].plot('text')
输出结果为：
userwarning: no tables found on page-53 [stream.py:292]
整个代码没有找到表格，这是因为stream方法默认将整个pdf页面当作表格，因此就没有找到表格。但是绘制的页面坐标的图像如下：
仔细对比之前的pdf页面，我们不难发现，表格对应的区域的左上角坐标为（50,620），右下角的坐标为（500,540）。我们在read_pdf()函数中加入table_area参数，完整的python代码如下：
import camelot# 识别指定区域中的表格数据tables = camelot.read_pdf('g://statistics-fundamentals-succinctly.pdf', pages='53', \                          flavor='stream', table_area=['50,620,500,540'])# 绘制pdf文档的坐标，定位表格所在的位置table_df = tables[0].dfprint(type(table_df))print(table_df.head(n=6))
输出的结果为：
<class 'pandas.core.frame.dataframe'>         0               1                2           30  student  pre-test score  post-test score  difference1        1              70               73           32        2              64               65           13        3              69               63          -64        …               …                …           …5       34              82               88           6
总结在具体识别pdf页面中的表格时，除了指定区域这个参数，还有上下标、单元格合并等参数，详细地使用方法可参考camelot官方文档网址：https://camelot-py.readthedoc...。
以上就是python如何实现从pdf文件中爬取表格数据（代码示例）的详细内容。

Python如何实现从PDF文件中爬取表格数据（代码示例）

推荐信息