java – 如何分割句子?
所以,我发现并且目前正在使用Stanford Parser,它可以很好地分割句子.我们的大多数句子来自AP,所以它对这项任务非常有效.
这是问题所在: >它吃了很多记忆(600M很多) 为此,我已经编写了多个补丁来补偿我真正不应该做的事情. 基本上它正处于使用开始时分裂句子的问题同样多的障碍. 我还有什么其他选择?任何其他NLP类型的框架可能有帮助吗? 我最初的问题是能够以高概率检测句子边缘. 解决方法
如果你想尝试坚持使用Stanford Tokenizer / Parser,请查看
documentation page for the tokenizer.
如果你只想分割句子,你不需要正确地调用解析器,因此你应该能够通过直接使用DocumentPreprocessor来获得少量内存 – 一兆字节或两兆字节. 虽然可用的标记器定制有限,但您可以更改引号的处理.您可能想尝试以下方法之一: unicodeQuotes=false,latexQuotes=false,asciiQuotes=false unicodeQuotes=true 第一个将意味着没有任何类型的引用映射,第二个将根据其最佳能力将单引号或双引号ascii引号(如果有)更改为左引号和右引号. 虽然标记生成器以各种方式拆分单词以匹配Penn Treebank约定,但您应该能够从返回的标记中精确构造原始文本(请参阅CoreLabel中的各种其他字段).否则这是一个错误. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |