Python中的民族智能词干/ lematizing
发布时间:2020-12-20 13:16:01 所属栏目:Python 来源:网络整理
导读:我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是: 西班牙语应该给我西班牙. 英语应该给我英格兰. 美国应该给我美国. 尼日利亚应该给我尼日利亚. 希腊人(复数)应该给我希腊. 波多黎各人(复数)应该给我波多黎各. 葡萄牙人应该给
我正在使用
Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是:
>西班牙语应该给我西班牙. 我对NLTK模块的Porter,Lancaster和Snowball词干器进行了一些实验.但Porter和Snowball根本不会改变令牌,而兰开斯特则过于咄咄逼人.例如,美国人的Lancaster词干是“Am”,这是非常糟糕的屠杀.我也使用WordNet lemmatizer玩了一些,没有成功. 有没有办法获得上述结果,即使它只适用于国家? 解决方法
您可能想要查看Unicode的CLDR(公共区域设置数据存储库):
http://cldr.unicode.org/ 它包含可能有用的区域和语言列表,因为您可以使用共享的标准ISO 639代码(en,de,fr等)将它们映射到一起. 这是一个有用的JSON存储库: https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en 查看那里的territories.json和languages.json文件. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |