加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

pdf, doc批量转换txt的问题可以问我

发布时间:2020-12-16 22:54:59 所属栏目:大数据 来源:网络整理
导读:连续加了2个星期的班,好累。幸好写出了几个程序,要不然岂不是很惨。 这几天一直在研究格式转换的问题,pdf2txt,doc2txt的程序已经都能运行,编码、分页的问题都已经解决。虽然不完美,但可以解决绝大多数问题。 借用了开源工具xpdf的pdftotext,非常感谢。

连续加了2个星期的班,好累。幸好写出了几个程序,要不然岂不是很惨。

这几天一直在研究格式转换的问题,pdf2txt,doc2txt的程序已经都能运行,编码、分页的问题都已经解决。虽然不完美,但可以解决绝大多数问题。

借用了开源工具xpdf的pdftotext,非常感谢。

最满意的地方是批量转换时效率较高,pdf2txt可以达到4秒/本,每本几百页,已经很快了,还要拆分txt,我容易嘛我。

pdf如果嵌入字体子集,或文字已转换为路径,还无法提取,在网上也没发现谁成功过。

doc2txt本来想用vb的,后来才发现vc也可以,我汗。。。 但效率不高,如果要分页导出txt的话,非常慢,不知哪位高手有快点的办法。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读