0x09 文本相似性,词袋向量化
01 自然语言 自然语言处理中,最简单的是判断两个文本的相似性。简单说,就是两段话或者两篇文档,判断他们是否表达相同的意思。又或者,发表了一篇论文,论文审核的人会去论文库里面搜索是否涉及抄袭。再比如,把10篇文档按内容描述的大意分成3个类别,即判断文档之间的相似性,把相似性高的聚在一起,这是简单的文档聚类。 机器处理文本,最重要的是提取文本的特征。扩展开来,机器学习的很多任务都需要提取特征,提取出来的特征好坏,很大程序上决定了任务结果的好坏。机器学习处理文字、语音、图片、视频等任务,很重要的就是从原始信息中提取出机器可以理解的特征,这也是基于自动特征提取的深度学习算法能火起来的主要原因。 机器只能处理数值类型的数据,首先遇到的一个问题,就是将文字的描述转换成数值类型,即后面要用到的向量。只有转换为向量后,才能通过模型来进行计算。一篇文章通常由大量的词语组成,在转换为向量的过程中,首先会遇到词语的抽取问题。对抽取出的词语,进行向量后,然后计算向量之间的相似性。 剩余内容目录: 02 中文分词…… 03 词袋向量化…… 04 词频向量化…… 05 向量相似性…… 阅读剩余内容,点左下角:阅读原文 如果觉得对你有帮助,请点击右上角,发送给你的朋友或者分享到你的朋友圈。让更多人看到。 长按下图,订阅“云戒云”公众号。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |