0x09 文本相似性，词袋向量化

发布时间：2020-12-14 02:08:03 所属栏目：大数据来源：网络整理

导读：01 自然语言人类的语言，经过了几千年积累，已经形成了完整体系。对人而言，识别其中的意思是比较容易的。可电脑却不同，要想识别其中的字词是很困难的。自然语言处理中，最简单的是判断两个文本的相似性。简单说，就是两段话或者两篇文档，判断他们是否表

01 自然语言
人类的语言，经过了几千年积累，已经形成了完整体系。对人而言，识别其中的意思是比较容易的。可电脑却不同，要想识别其中的字词是很困难的。

自然语言处理中，最简单的是判断两个文本的相似性。简单说，就是两段话或者两篇文档，判断他们是否表达相同的意思。又或者，发表了一篇论文，论文审核的人会去论文库里面搜索是否涉及抄袭。再比如，把10篇文档按内容描述的大意分成3个类别，即判断文档之间的相似性，把相似性高的聚在一起，这是简单的文档聚类。

机器处理文本，最重要的是提取文本的特征。扩展开来，机器学习的很多任务都需要提取特征，提取出来的特征好坏，很大程序上决定了任务结果的好坏。机器学习处理文字、语音、图片、视频等任务，很重要的就是从原始信息中提取出机器可以理解的特征，这也是基于自动特征提取的深度学习算法能火起来的主要原因。

机器只能处理数值类型的数据，首先遇到的一个问题，就是将文字的描述转换成数值类型，即后面要用到的向量。只有转换为向量后，才能通过模型来进行计算。一篇文章通常由大量的词语组成，在转换为向量的过程中，首先会遇到词语的抽取问题。对抽取出的词语，进行向量后，然后计算向量之间的相似性。

剩余内容目录：

02 中文分词……

03 词袋向量化……

04 词频向量化……

05 向量相似性……

阅读剩余内容，点左下角：阅读原文

如果觉得对你有帮助，请点击右上角，发送给你的朋友或者分享到你的朋友圈。让更多人看到。

长按下图，订阅“云戒云”公众号。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!