linux – Stanford POS Tagger没有标记中文文本
我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗?
我从这里下载并解压缩了最新的完整版本: 然后我将样本文本输入“sample-input.txt”.
然后我就跑了
预期的输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词:
我感谢任何帮助. 解决方法
我终于意识到这个pos标记器中不包含标记化/分割.在将它们提供给标记器之前,它们似乎必须以空格分隔.对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包:
http://nlp.stanford.edu/software/segmenter.shtml 感谢大家. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |