R中的文本处理和预处理有哪些强大的工具？

发布时间：2020-12-14 02:03:31 所属栏目：Linux 来源：网络整理

导读：我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时. 我的问题：是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据

我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时.

我的问题：

>是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据清理有用？
>是否可以从R中运行sed命令/脚本？如果是这样,怎么样？能给我举个例子？
>有没有人试图为sed编写一个包装器作为R包.如果没有,这将是一件值得追求的事情(对我自己或更有能力的程序员来说是一个辅助项目)？

解决方法

首先,关于sed和awk,我一般都不需要它们,因为它们特别老派.我经常在Perl中编写正则表达式,并实现相同的功能,可读性更强一些.我并不是要讨论实现的优点,但是当我不在Perl中编写这样的函数时,我发现gsub,grep和相关的正则表达式工具在R中工作得很好.注意这些可以采用perl = TRUE作为一个论点;我更喜欢Perl正则表达式处理.

对于更严重的包装,tm package特别值得注意.有关自然语言处理和文本挖掘资源的更多信息,请查看CRAN Task View for NLP.

另外,我认为你的问题标题已经混淆了两个概念.像sed& amp; awk,正则表达式,标记化等是文本处理和预处理中的重要部分.文本挖掘更具统计性,并且取决于文本数据的有效预处理和量化.虽然没有提及,但分析,信息检索和自然语言处理的后续两个阶段是研究和研究.工程领域的目标更具体.如果您主要对文本操作感兴趣,那么应用正则表达式和预处理/规范化的各种工具就足够了.如果要进行文本挖掘,则需要查看更多的统计函数.对于NLP,需要进行更深入分析的工具.所有这些都可以从R内部访问,但问题是你想在这个兔子洞里走多远？想要吞下红色药丸吗？

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!