加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

R中的文本处理和预处理有哪些强大的工具?

发布时间:2020-12-14 02:03:31 所属栏目:Linux 来源:网络整理
导读:我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时. 我的问题: 是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据
我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时.

我的问题:

>是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据清理有用?
>是否可以从R中运行sed命令/脚本?如果是这样,怎么样?能给我举个例子?
>有没有人试图为sed编写一个包装器作为R包.如果没有,这将是一件值得追求的事情(对我自己或更有能力的程序员来说是一个辅助项目)?

解决方法

首先,关于sed和awk,我一般都不需要它们,因为它们特别老派.我经常在Perl中编写正则表达式,并实现相同的功能,可读性更强一些.我并不是要讨论实现的优点,但是当我不在Perl中编写这样的函数时,我发现gsub,grep和相关的正则表达式工具在R中工作得很好.注意这些可以采用perl = TRUE作为一个论点;我更喜欢Perl正则表达式处理.

对于更严重的包装,tm package特别值得注意.有关自然语言处理和文本挖掘资源的更多信息,请查看CRAN Task View for NLP.

另外,我认为你的问题标题已经混淆了两个概念.像sed& amp; awk,正则表达式,标记化等是文本处理和预处理中的重要部分.文本挖掘更具统计性,并且取决于文本数据的有效预处理和量化.虽然没有提及,但分析,信息检索和自然语言处理的后续两个阶段是研究和研究.工程领域的目标更具体.如果您主要对文本操作感兴趣,那么应用正则表达式和预处理/规范化的各种工具就足够了.如果要进行文本挖掘,则需要查看更多的统计函数.对于NLP,需要进行更深入分析的工具.所有这些都可以从R内部访问,但问题是你想在这个兔子洞里走多远?想要吞下红色药丸吗?

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读