用户评论挖掘
随着互联网的发展,越来越多的人选择在网上消费,并且越来越的证据表明商品的评论信息会影响到消费者的消费决定。评论挖掘的主要任务是从评论中了解到用户对产品的哪些功能、属性进行了怎样的评论,并抽取成简短有效的信息。 评论挖掘主要有以下几个子任务: 识别、抽取产品特征产品特征分为显示特征和隐含特征。 显示特征显示特征是直接出现在产品的评论中,描述产品的性能或功能的名词或名词短语。 隐含特征隐含特征没有在语句中直接进行描述,需要对句子进行语义理解才能得到,提取隐含特征需要自然语言的完全理解技术 。 特征词满足以下三个条件之一:
自动提取过程:对语料进行词性标注,提取其中的名词短语,利用关联规则挖掘出频繁项,在频繁项候选集上做密实度修剪和冗余修剪,去掉无用的短语和合并相似的短语。 特征语意去重首先介绍一下什么是词向量和语言模型。 关于同义词聚类,Google推出的Word2Vec是一个不错的工具,关于Word2Vec的介绍请参考之前的博文:自然语言处理之Word2Vec 。其中一个思路是:用word2vec的到词向量然后用kmeans进行同义词聚类。 识别产品特征对应的观点词对评论语料进行词法和依存句法分析生成三元组: <Attribute,Subject,Value>
Subject:产品
Attribute:特征
Value:特征观点
分析评论的情感及强度把用户评论句子切分为只包含一个特征词的短句并将评论抽象概括为 <Holder, Topic,Sentimentl>
采用基于情感词典的方式计算短句的情感得分: V代表情感词典中情感词集合 在此基础之上应用否定词、转折词规则以及基于上下文情感的连词规则和蕴含连词规则。最终计算得到短句的情感倾向得分。 后记 以上是针对中文的用户评论挖掘的一个大致粗略的过程,也算是对之前一个回答的补充: 淘宝的评论归纳是如何做到的? - 慕希颜的回答 - 知乎 在进行挖掘前的一些数据清洗工作(例如计算评论的质量,去掉无效、低质量评论)就不详细介绍了,如有不对的地方请指正,谢谢。 转载: http://singlecool.com/2016/12/04/%E7%94%A8%E6%88%B7%E8%AF%84%E8%AE%BA%E6%8C%96%E6%8E%98/ (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |