python抓取pdf年报(python 抓取pdf内容)

http://www.itjxue.com  2023-04-11 01:29  来源:未知  点击次数: 

python怎样读取pdf文件的内容

from?urllib.request?import?urlopen

from?pdfminer.pdfinterp?import?PDFResourceManager,?process_pdf

from?pdfminer.converter?import?TextConverter

from?pdfminer.layout?import?LAParams

from?io?import?StringIO

from?io?import?open

def?readPDF(pdfFile):

????rsrcmgr?=?PDFResourceManager()

????retstr?=?StringIO()

????laparams?=?LAParams()

????device?=?TextConverter(rsrcmgr,?retstr,?laparams=laparams)

????process_pdf(rsrcmgr,?device,?pdfFile)

????device.close()

????content?=?retstr.getvalue()

????retstr.close()

????return?content

pdfFile?=?urlopen("chapter1.pdf")

outputString?=?readPDF(pdfFile)

print(outputString)

pdfFile.close()

如何利用Python抓取PDF中的某些内容

利用pdfbox,目前最好的pdf提取工具,功能非常强大,最近刚完成了类似的一个需求。实现方式是用python请求pdfbox的jar,根据传入的参数完成各种功能,非常简单。

请问怎么通过python爬虫获取网页中的pdf文件?

首先把链接URL爬取出来,然后get流下载pdf文件,再用pdf模块来读取它。

(责任编辑:IT教学网)

更多

推荐Javascript/Ajax文章