R中的文本处理和预处理有哪些强大的工具?
我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时.
我的问题: >是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据清理有用? 解决方法
首先,关于sed和awk,我一般都不需要它们,因为它们特别老派.我经常在Perl中编写正则表达式,并实现相同的功能,可读性更强一些.我并不是要讨论实现的优点,但是当我不在Perl中编写这样的函数时,我发现gsub,grep和相关的正则表达式工具在R中工作得很好.注意这些可以采用perl = TRUE作为一个论点;我更喜欢Perl正则表达式处理.
对于更严重的包装, 另外,我认为你的问题标题已经混淆了两个概念.像sed& amp; awk,正则表达式,标记化等是文本处理和预处理中的重要部分.文本挖掘更具统计性,并且取决于文本数据的有效预处理和量化.虽然没有提及,但分析,信息检索和自然语言处理的后续两个阶段是研究和研究.工程领域的目标更具体.如果您主要对文本操作感兴趣,那么应用正则表达式和预处理/规范化的各种工具就足够了.如果要进行文本挖掘,则需要查看更多的统计函数.对于NLP,需要进行更深入分析的工具.所有这些都可以从R内部访问,但问题是你想在这个兔子洞里走多远?想要吞下红色药丸吗? (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |