加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

0x09 文本相似性,词袋向量化

发布时间:2020-12-14 02:08:03 所属栏目:大数据 来源:网络整理
导读:01 自然语言 人类的语言,经过了几千年积累,已经形成了完整体系。对人而言,识别其中的意思是比较容易的。可电脑却不同,要想识别其中的字词是很困难的。 自然语言处理中,最简单的是判断两个文本的相似性。简单说,就是两段话或者两篇文档,判断他们是否表

01 自然语言
人类的语言,经过了几千年积累,已经形成了完整体系。对人而言,识别其中的意思是比较容易的。可电脑却不同,要想识别其中的字词是很困难的。

自然语言处理中,最简单的是判断两个文本的相似性。简单说,就是两段话或者两篇文档,判断他们是否表达相同的意思。又或者,发表了一篇论文,论文审核的人会去论文库里面搜索是否涉及抄袭。再比如,把10篇文档按内容描述的大意分成3个类别,即判断文档之间的相似性,把相似性高的聚在一起,这是简单的文档聚类。

机器处理文本,最重要的是提取文本的特征。扩展开来,机器学习的很多任务都需要提取特征,提取出来的特征好坏,很大程序上决定了任务结果的好坏。机器学习处理文字、语音、图片、视频等任务,很重要的就是从原始信息中提取出机器可以理解的特征,这也是基于自动特征提取的深度学习算法能火起来的主要原因。

机器只能处理数值类型的数据,首先遇到的一个问题,就是将文字的描述转换成数值类型,即后面要用到的向量。只有转换为向量后,才能通过模型来进行计算。一篇文章通常由大量的词语组成,在转换为向量的过程中,首先会遇到词语的抽取问题。对抽取出的词语,进行向量后,然后计算向量之间的相似性。

剩余内容目录:

02 中文分词……

03 词袋向量化……

04 词频向量化……

05 向量相似性……

阅读剩余内容,点左下角:阅读原文

如果觉得对你有帮助,请点击右上角,发送给你的朋友或者分享到你的朋友圈。让更多人看到。

长按下图,订阅“云戒云”公众号。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读