加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

linux – Stanford POS Tagger没有标记中文文本

发布时间:2020-12-14 01:04:18 所属栏目:Linux 来源:网络整理
导读:我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗? 我从这里下载并解压缩了最新的完整版本: http://nlp.stanford.edu/software/tagger.shtml 然后我将样本文本输入“samp
我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗?

我从这里下载并解压缩了最新的完整版本:
http://nlp.stanford.edu/software/tagger.shtml

然后我将样本文本输入“sample-input.txt”.

这是一个测试的句子.这是另一个句子.

然后我就跑了

./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt

预期的输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词:

Loading default properties from tagger models/chinese-distsim.tagger

Reading POS tagger model from models/chinese-distsim.tagger … done [3.5 sec].

這是一個測試的句子.這是另一個句子.#NR

Tagged 1 words at 30.30 words per second.

我感谢任何帮助.

解决方法

我终于意识到这个pos标记器中不包含标记化/分割.在将它们提供给标记器之前,它们似乎必须以空格分隔.对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包:

http://nlp.stanford.edu/software/segmenter.shtml

感谢大家.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读