C#解决方案用于渲染PDF和OCR生成的图像?
我正在寻找的是一种C#解决方案,可以将数据从PDF文档导入我们的数据库,在商业应用程序中.我们的客户将寻求导入任意文档.通常我会把它写成完全不可能,但他们导入的文件将采用他们自己的布局.
我的计划是将PDF呈现为静态图像,然后允许用户设置自己的模板,这些模板基本上使用OCR在PDF中的预定义像素偏移处拉出文本.对于表,它们定义表的位置以及列和行大小的一组其他值.然后,我们可以将模板应用于该文档类型. 所以,我真正想要的是两个库:一个用于将PDF转换为图像,另一个用于将这些图像转换为OCR. 要求: >是纯C#还是在本机DLL上有一个受支持的C#包装器. 我们当然不介意为商业解决方案付费,但我们宁愿不再为每个软件分发付费. 我知道这是一个非常具体的要求 – 也许足以让一些人认为这个问题过于局部化,但我希望有人可以建议一种方法和一些对我有帮助的库,以及将来的其他人. 我调查了PDF方面的东西: > iTextSharp – 文档是你必须购买的书,不是一个好的开始.关于将PDF转换为公共领域的图像似乎没有太多有用的文档.许可是不透明的,看起来我们必须按照我们分发的客户付费. 对于OCR方面,我可能最终会使用Tesseract,因为Apache许可是允许的,并且它得到了很好的评论.如果有其他选择,我也会对此感兴趣. 解决方法
我想你可能想给Docotic.Pdf另一个机会.
该库可以使用其边界矩形提取文本块,单词甚至单个字符.请查看extraction of words from PDFs的样本. 此外,Docotic.Pdf可以从PDF创建图像并在System.Drawing.Graphics上绘制页面.请看一下Draw and print Pdf组的样品. 免责声明:我是该图书馆的开发人员之一. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |