python抓取pdf年报(python 抓取pdf内容)
http://www.itjxue.com 2023-04-11 01:29 来源:未知 点击次数:
python怎样读取pdf文件的内容
from?urllib.request?import?urlopen
from?pdfminer.pdfinterp?import?PDFResourceManager,?process_pdf
from?pdfminer.converter?import?TextConverter
from?pdfminer.layout?import?LAParams
from?io?import?StringIO
from?io?import?open
def?readPDF(pdfFile):
????rsrcmgr?=?PDFResourceManager()
????retstr?=?StringIO()
????laparams?=?LAParams()
????device?=?TextConverter(rsrcmgr,?retstr,?laparams=laparams)
????process_pdf(rsrcmgr,?device,?pdfFile)
????device.close()
????content?=?retstr.getvalue()
????retstr.close()
????return?content
pdfFile?=?urlopen("chapter1.pdf")
outputString?=?readPDF(pdfFile)
print(outputString)
pdfFile.close()
如何利用Python抓取PDF中的某些内容
利用pdfbox,目前最好的pdf提取工具,功能非常强大,最近刚完成了类似的一个需求。实现方式是用python请求pdfbox的jar,根据传入的参数完成各种功能,非常简单。
请问怎么通过python爬虫获取网页中的pdf文件?
首先把链接URL爬取出来,然后get流下载pdf文件,再用pdf模块来读取它。