加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

Java – PDFBox – 文本提取

发布时间:2020-12-14 19:11:51 所属栏目:Java 来源:网络整理
导读:我一直在使用pdfbox从PDF中提取文本信息.我成功地解析了文本的所有属性,如fontname,fontface,size,position等. 问题:我使用的是pdfbox1.2.1(最新版本). TextPosition类中的getCharacter()返回除最后一个字符之外的完整字符串.最后一个字符被解析为单独的字

我一直在使用pdfbox从PDF中提取文本信息.我成功地解析了文本的所有属性,如fontname,fontface,size,position等.

问题:我使用的是pdfbox1.2.1(最新版本). TextPosition类中的getCharacter()返回除最后一个字符之外的完整字符串.最后一个字符被解析为单独的字符串.

例如:“你好吗”被解析为“如何哟”和“你”(2个单独的字符串).

我不希望它发生那种方式..

有没有人来过这个? ..我做错了什么??等待回复..

感谢致敬,
Magggi

最佳答案
这个问题解决了.

PDFStreamEngine.java中的processEncodedText(byte [] string)中的以下代码

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

应改为

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

问候,
炸面

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读