linux – Stanford POS Tagger没有标记中文文本

发布时间：2020-12-14 01:04:18 所属栏目：Linux 来源：网络整理

导读：我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗？我从这里下载并解压缩了最新的完整版本： http://nlp.stanford.edu/software/tagger.shtml 然后我将样本文本输入“samp

我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗？

我从这里下载并解压缩了最新的完整版本：
http://nlp.stanford.edu/software/tagger.shtml

然后我将样本文本输入“sample-input.txt”.

这是一个测试的句子.这是另一个句子.

然后我就跑了

./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt

预期的输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词：

Loading default properties from tagger models/chinese-distsim.tagger

Reading POS tagger model from models/chinese-distsim.tagger … done [3.5 sec].

這是一個測試的句子.這是另一個句子.#NR

Tagged 1 words at 30.30 words per second.

我感谢任何帮助.

解决方法

我终于意识到这个pos标记器中不包含标记化/分割.在将它们提供给标记器之前,它们似乎必须以空格分隔.对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包：

http://nlp.stanford.edu/software/segmenter.shtml

感谢大家.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!