Python中的民族智能词干/ lematizing

发布时间：2020-12-20 13:16:01 所属栏目：Python 来源：网络整理

导读：我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是：西班牙语应该给我西班牙. 英语应该给我英格兰. 美国应该给我美国. 尼日利亚应该给我尼日利亚. 希腊人(复数)应该给我希腊. 波多黎各人(复数)应该给我波多黎各. 葡萄牙人应该给

我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是：

>西班牙语应该给我西班牙.
>英语应该给我英格兰.
>美国应该给我美国.
>尼日利亚应该给我尼日利亚.
>希腊人(复数)应该给我希腊.
>波多黎各人(复数)应该给我波多黎各.
>葡萄牙人应该给我葡萄牙.

我对NLTK模块的Porter,Lancaster和Snowball词干器进行了一些实验.但Porter和Snowball根本不会改变令牌,而兰开斯特则过于咄咄逼人.例如,美国人的Lancaster词干是“Am”,这是非常糟糕的屠杀.我也使用WordNet lemmatizer玩了一些,没有成功.

有没有办法获得上述结果,即使它只适用于国家？

您可能想要查看Unicode的CLDR(公共区域设置数据存储库)：
http://cldr.unicode.org/

它包含可能有用的区域和语言列表,因为您可以使用共享的标准ISO 639代码(en,de,fr等)将它们映射到一起.

这是一个有用的JSON存储库：

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看那里的territories.json和languages.json文件.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!