加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

使用Python pdfMiner每页提取文本?

发布时间:2020-12-16 22:57:46 所属栏目:Python 来源:网络整理
导读:我已经尝试了pyPdf和pdfMiner来从pdf文件中提取文本.我有一些不友好的pdf,只有pdfMiner才能成功提取.我使用代码 here来提取整个文件的文本.但是,我真的想在每页上提取文本,如pyPdf中的getPage(i).extractText()功能.有谁知道如何使用pdfMiner提取每页文本?
我已经尝试了pyPdf和pdfMiner来从pdf文件中提取文本.我有一些不友好的pdf,只有pdfMiner才能成功提取.我使用代码 here来提取整个文件的文本.但是,我真的想在每页上提取文本,如pyPdf中的getPage(i).extractText()功能.有谁知道如何使用pdfMiner提取每页文本?

解决方法

for pageNumber,page in enumerate(PDFDocument.get_pages()):
    if pageNumber == 42:
        #do something with the page

有一篇非常好的文章here.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读