python读取pdf特定位置文字(python读取pdf内容转word)

http://www.itjxue.com  2023-04-12 05:37  来源:未知  点击次数: 

python怎样读取pdf文件的内容

pdfminer 库

前几天刚做完一个解析PDF的web应用,给你地址也可以参考一下

如何利用Python抓取PDF中的某些内容

先把pdf转html,接下来再用bs4来解析处理。好处是处理html的工具非常非常丰富,且pdf2htmlex对原页面的效果保持得特别好,特别是对于那些个用word和latex导出的pdf里,大量数据图表里的标签可以很方便地把值抓出来…

基于Python实现PDF区域文本提取工具

pre{overflow-x: auto} 功能简介 打开软件后界面如下:

点击打开文件按钮打开之前的PDF文件后效果如下:

框选区域后,标题栏会自动显示当前框选的区域提取到的文字,还可以左右按钮切换:

实际我们需要提取文字的区域可能不止这一个,所以程序支持多区域框选:

完成区域框选后就可以点击保存文件,将PDF每页提取到的文本保存到一个csv文件中,当前选区的保存结果如下:

可以看到已经按框选顺序依次保存了每一个区域的字符串。

如果选择区域时发现提取结果不准确,可以撤销后重新选择:

保存图片则会将PDF的每页的整体保存为一张图片,未选择区域时,以页码为文件名保存图片:

选择区域时,会自动提取最后一个区域提取的文本作为当前页的文件名:

开发代码

当然这个项目由于本人是一次使用wxpython,功能非常简约,现在将完整代码开源出来期待各位大佬的改进。

源码和已编译工具下载地址:

完整代码: """ 小小明的代码 CSDN主页: """ __author__?=?'小小明' __time__?=?'2021/11/24' import?csv import?wx import?os import?fitz class?MyCanvas(wx.Panel): ????def?__init__(self,?parent): ????????wx.Panel.__init__(self,?parent) ????????self.parent?=?parent ????????self.rects?=?[] ????????self.Bind(wx.EVT_LEFT_DOWN,?self.OnLeftButtonEvent) ????????self.Bind(wx.EVT_LEFT_UP,?self.OnLeftButtonEvent) ????????self.Bind(wx.EVT_MOTION,?self.OnLeftButtonEvent) ????????self.Bind(wx.EVT_PAINT,?self.DoDrawing) ????????b?=?wx.Button(self,?-1,?"打开文件",?(0,?0)) ????????self.Bind(wx.EVT_BUTTON,?self.OnButton,?b) ????????b?=?wx.Button(self,?-1,?"保存文件",?(75,?0)) ????????self.Bind(wx.EVT_BUTTON,?self.save_file,?b) ????????b?=?wx.Button(self,?-1,?"保存图片",?(150,?0)) ????????self.Bind(wx.EVT_BUTTON,?self.save_img,?b) ????????b?=?wx.Button(self,?-1,?"撤销选区",?(225,?0)) ????????self.Bind(wx.EVT_BUTTON,?self.back_select,?b) ????????b?=?wx.Button(self,?-1,?"《",?(300,?0),?size=(25,?25)) ????????self.Bind(wx.EVT_BUTTON,?self.previous,?b) ????????b?=?wx.Button(self,?-1,?"》",?(325,?0),?size=(25,?25)) ????????self.Bind(wx.EVT_BUTTON,?self.next,?b) ????????self.g1?=?wx.Gauge(self,?-1,?100,?(0,?30),?(-1,?100),?wx.GA_VERTICAL) ????def?previous(self,?evt): ????????if?not?hasattr(self,?"pdfDoc"): ????????????return ????????if?self.i??0: ????????????self.i?-=?1 ????????????self.change_pdf_page(self.i,?False) ????????????self.DoDrawing(-1) ????????????if?self.rects: ????????????????self.parent.SetTitle(self.path?+?"|"?+?self.extract_pdf_text()) ????def?next(self,?evt): ????????if?not?hasattr(self,?"pdfDoc"): ????????????return ????????if?self.i?

如何使用python来获取pdf文件里的文字,最好是不能乱码

没有其它的办法,可以用汉王去转换,但是转出来的依然是每个字每个字的小图

希望我的回答对你有所帮助,如果满意请设置为最佳答案,谢谢

Python利器:如何处理PDF表格数据

大家好,我是Peter~

在很多情况下,我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取,真的是一个令人头疼的问题。

因为PDF文件不能像Word那样直接复制,即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据?本文提供两个解决方案:

首先提供的一种方法是从文字 PDF 中提取表格信息的工具:Camelot,它能够直接将大部分表格转换为 Pandas 的 Dataframe。

更多的详细信息,请参考项目地址:

camelot的安装有多种方式。如果有报错,网上一般有解决方式:

1、通过conda安装

2、使用pip进行安装

3、通过GitHub进行安装

首先将项目复制到本地:

然后进入文件中进行安装:

下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件test.pdf:

1、先读取文件

导出成csv格式的数据(方式1)

查看tables的相关信息:

导出方式2:

将数据转换成DataFrame:

tabula的功能比camelot更加强大,可以同时对多个表格数据进行提取。项目的具体地址请参考:

tabula的安装是非常简单的:

安装之后检验这个库是否安装成功:

通过tabula这个库来读取PDF文件:

然后我们发现列表中唯一的一个元素就是dataframe:

将读取到的数据输出成CSV格式的文件:

上面读取的PDF文件是比较简单的,只有一页,而且刚好是一个很标准的表格形式的数据,下面看一个比较复杂的例子:

下面是第一页,第一列可以看成是索引:

在第二页中有两份表格,而且中间有很多的空白行:

第三页的数据比较标准:

这3页是在同一个PDF文件中,这3页是在同一个PDF文件中,这3页是在同一个PDF文件中

上面的红色提示中我们看到:当没有指定pages参数的时候,只会默认读取第一页的数据,所以列表的长度为1。

转成dataframe后将原来的索引变成新的一列 (部分数据)

通过pages来读取全部数据:

通过指定pages="all":

同时获取两个表格的数据:

通过area参数来指定:

删除在读取的表格中我们不需要的字段信息

可以将得到的数据输出成不同格式的文件,以json格式为例:

我们可以看到

(责任编辑:IT教学网)

更多

推荐SQL Server文章