使用NLTK从OCR中识别未分裂的单词

发布时间：2020-12-16 23:54:25 所属栏目：Python 来源：网络整理

导读：我正在使用NLTK处理从PDF文件中提取的一些文本.我可以完整地恢复文本,但是有很多实例没有捕获单词之间的空格,所以我得到像ifI而不是if,或者那个位置而不是那个位置的单词,或者他而不是和他的单词. 我的问题是：如何使用NLTK查找它无法识别/未学习的单词,并查

我正在使用NLTK处理从PDF文件中提取的一些文本.我可以完整地恢复文本,但是有很多实例没有捕获单词之间的空格,所以我得到像ifI而不是if,或者那个位置而不是那个位置的单词,或者他而不是和他的单词.

我的问题是：如何使用NLTK查找它无法识别/未学习的单词,并查看是否存在更可能发生的“附近”单词组合？有没有更优雅的方式来实现这种检查,而不是简单地通过无法识别的单词,一次一个字符,拆分它,并查看它是否产生两个可识别的单词？

最佳答案

我建议您考虑使用pyenchant,因为它是针对此类问题的更强大的解决方案.您可以下载pyenchant here.以下是安装后如何获得结果的示例：

>>> text = "IfI am inthat position,Idon't think I will."  # note the lack of spaces
>>> from enchant.checker import SpellChecker
>>> checker = SpellChecker("en_US")
>>> checker.set_text(text)
>>> for error in checker:
    for suggestion in error.suggest():
        if error.word.replace(' ','') == suggestion.replace(' ',''):  # make sure the suggestion has exact same characters as error in the same order as error and without considering spaces
            error.replace(suggestion)
            break
>>> checker.get_text()
"If I am in that position,I don't think I will."  # text is now fixed

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!