python3安装pdfminer并使用
发布时间:2020-12-20 10:46:35 所属栏目:Python 来源:网络整理
导读:1.python3不同与2版本不能使用pdfminer pip install pdfminer3k 2.使用pdfminer解析相应文档并保存到相应的文件夹中 # encoding : udf-8 """ 解析pdf文本保存到txt文件中 """ from pdfminer.converter import PDFPageAggregator from pdfminer.layout import
1.python3不同与2版本不能使用pdfminer pip install pdfminer3k 2.使用pdfminer解析相应文档并保存到相应的文件夹中 # encoding : udf-8 """ 解析pdf文本保存到txt文件中 """ from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams,LTTextBoxHorizontal from pdfminer.pdfinterp import PDFTextExtractionNotAllowed,PDFResourceManager,PDFPageInterpreter from pdfminer.pdfparser import PDFDocument,PDFParser path = ‘E:force.pdf‘ def parse(): fp = open(path,‘rb‘) # 以二进制读模式打开 praser = PDFParser(fp) # 创建一个PDF文档 doc = PDFDocument() # 连接分析器 与文档对象 praser.set_document(doc) doc.set_parser(praser) # 提供初始化密码 # 如果没有密码 就创建一个空的字符串 doc.initialize() # 检测文档是否提供txt转换,不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: # 创建PDf 资源管理器 来管理共享资源 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr,laparams=laparams) # 创建一个PDF解释器对象 interpreter = PDFPageInterpreter(rsrcmgr,device) # 循环遍历列表,每次处理一个page的内容 for page in doc.get_pages(): # doc.get_pages() 获取page列表 interpreter.process_page(page) # 接受该页面的LTPage对象 layout = device.get_result() for x in layout: if isinstance(x,LTTextBoxHorizontal): with open(r‘E:pdf1.txt‘,‘a‘) as f: results = x.get_text() print(results) f.write(results + ‘n‘) if __name__ == ‘__main__‘: parse() (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- python – Postgresql数据库随机崩溃
- python – 将矩阵中的每个元素重复为一个新的矩阵
- Python3网络爬虫之使用User Agent和代理IP隐藏身份
- 为什么Python argparse中的fromfile-prefix-chars不起作用?
- 为anaconda导入vpython的问题
- python – tabula-py ImportError:无法导入名称’read_pdf
- 如何检查变量是否与其他两个变量中的至少一个相同?
- python – ElementTree find()/ findall()找不到带命名空间
- 用Python+Scratch开发一款可联网的游戏!下个爆款游戏是你开
- python 模块