从PDF中提取所有内容
寻找从PDF文件中提取内容的解决方案(使用控制台工具或库).
它将在服务器上用于从上传的PDF文件中生成在线电子书. 需要提取以下内容: >带字体和样式的文字; 查看Adobe PDF库(仅5000美元),BCL SDK(?),PDFLib(795欧元),QuickPDF(250美元) 现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图).剩下的其他事情是: >字体; 我们在支付大量资金(并且可能错误地选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决. 您推荐哪种BEST解决方案从PDF中提取几乎所有内容? 任何评论将不胜感激. 解决方法
听起来好几天或几周,您可以根据需要调整开源工具.字体和一切都可以被提取出来,这是每个PDF阅读器必须要做的事情才能显示它们.
您应该估算程序员的成本($/ hr),然后乘以估计所需的时间来添加所需的开源功能(60-80小时?).如果这个更高或接近5000美元,你可能会考虑购买商业软件. 否则,在(相当不错的)PDF reference的帮助下,你应该顺利. 还有一件事,你可能会发现Poppler有所帮助.它用于渲染PDF,但这与您尝试执行的操作非常相关. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |