当前位置： > 网页制作 > Javascript/Ajax > 文章内容

python抓取pdf年报(python 抓取pdf内容)

http://www.itjxue.com 2023-04-11 01:29 来源:未知 点击次数:

python怎样读取pdf文件的内容

from?urllib.request?import?urlopen

from?pdfminer.pdfinterp?import?PDFResourceManager,?process_pdf

from?pdfminer.converter?import?TextConverter

from?pdfminer.layout?import?LAParams

from?io?import?StringIO

from?io?import?open

def?readPDF(pdfFile):

????rsrcmgr?=?PDFResourceManager()

????retstr?=?StringIO()

????laparams?=?LAParams()

????device?=?TextConverter(rsrcmgr,?retstr,?laparams=laparams)

????process_pdf(rsrcmgr,?device,?pdfFile)

????device.close()

????content?=?retstr.getvalue()

????retstr.close()

????return?content

pdfFile?=?urlopen("chapter1.pdf")

outputString?=?readPDF(pdfFile)

print(outputString)

pdfFile.close()

利用pdfbox，目前最好的pdf提取工具，功能非常强大，最近刚完成了类似的一个需求。实现方式是用python请求pdfbox的jar，根据传入的参数完成各种功能，非常简单。

首先把链接URL爬取出来，然后get流下载pdf文件，再用pdf模块来读取它。

python抓取pdf年报(python 抓取pdf内容)