nlp – 文本挖掘 – 最常见的单词,规范化
我是一名研究员,拥有约17,000份自由文本文件,其中约30-40%与我的结果相关.是否有一个开源工具我可以用来确定与结果相关的最常见的单词(甚至是短语,但不是必需的),对已经发生的单词的频率进行标准化?所有文件都是由医护人员编写的,因此规范化很重要,因为两种文件都有技术语言,并且还想要筛选出“the”,“it”等字样.
我想要做的是使用正则表达式或NLP构建一个工具,然后使用这些单词来识别基于新文档的结果.我不打算花大量的时间来定制NLP工具,所以具有合理准确性的东西就足够了. 我知道SAS,SQL(使用postgreSQL)和Python,但可能会在R中得到.我以前没有做过任何NLP.有没有我可以使用的软件没有太陡峭的学习曲线?谢谢! 解决方法tool I can use to determine the most common words... ... so something with reasonable accuracy is good enough. 我建议先尝试使用unix文本工具. 为此,我们使用tr,uniq和sort.如果您以前使用过unix文本工具,这是完整的命令. tr -sc 'A-Z' 'a-z' < *.txt | tr -sc 'A-Za-z' 'n' | sort | uniq -c | sort -n -r 以下是对每个部分的解释. tr -sc 'A-Za-z' 'n' < filename.txt 这个命令采用filename.txt改变每个单词,基本上你在每个单词后添加新行. tr -sc 'A-Za-z' 'n' < *.txt 与上面相同,但目录中的所有txt文件. tr -sc 'A-Za-z' 'n' < *.txt | sort 管道您的命令进行排序.首先是从很多“a”字开始. tr -sc 'A-Za-z' 'n' < *.txt | sort | uniq -c 管道排序结果为uniq命令并对其进行计数. tr -sc 'A-Za-z' 'n' < *.txt | sort | uniq -c | sort -n -r 管道你的命令再次排序,以查看最常用的,最常见的单词. 问题在于:’和’和’和’计算两次 tr -sc 'A-Z' 'a-z' < *.txt | tr -sc 'A-Za-z' 'n' | sort | uniq -c | sort -n -r 要么 tr '[:upper:]' '[:lower:]' < *.txt | tr -sc 'A-Za-z' 'n' | sort | uniq -c | sort -n -r 将所有单词再次更改为小写和相同的管道.这将为您提供文件中最常用的单词. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |