加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R语言做文本挖掘 Part2分词处理

发布时间:2020-12-14 01:44:18 所属栏目:大数据 来源:网络整理
导读:?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才能做相关分
??

转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html

Part2分词处理

【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】

在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!

1.?????? RWordseg功能

说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍。

分词

[plain] view plain copy print ?

  1. segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
[[1]]

[1] "如果"""?? "因为" "太阳"?

[8] "流泪"

[[2]]

星星"

可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。

加词删词

[plain] view plain copy print ?

  1. insertWords("错过")??
  2. segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读