加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

Python中的民族智能词干/ lematizing

发布时间:2020-12-20 13:16:01 所属栏目:Python 来源:网络整理
导读:我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是: 西班牙语应该给我西班牙. 英语应该给我英格兰. 美国应该给我美国. 尼日利亚应该给我尼日利亚. 希腊人(复数)应该给我希腊. 波多黎各人(复数)应该给我波多黎各. 葡萄牙人应该给
我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是:

>西班牙语应该给我西班牙.
>英语应该给我英格兰.
>美国应该给我美国.
>尼日利亚应该给我尼日利亚.
>希腊人(复数)应该给我希腊.
>波多黎各人(复数)应该给我波多黎各.
>葡萄牙人应该给我葡萄牙.

我对NLTK模块的Porter,Lancaster和Snowball词干器进行了一些实验.但Porter和Snowball根本不会改变令牌,而兰开斯特则过于咄咄逼人.例如,美国人的Lancaster词干是“Am”,这是非常糟糕的屠杀.我也使用WordNet lemmatizer玩了一些,没有成功.

有没有办法获得上述结果,即使它只适用于国家?

解决方法

您可能想要查看Unicode的CLDR(公共区域设置数据存储库):
http://cldr.unicode.org/

它包含可能有用的区域和语言列表,因为您可以使用共享的标准ISO 639代码(en,de,fr等)将它们映射到一起.

这是一个有用的JSON存储库:

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看那里的territories.json和languages.json文件.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读