关于评论话题挖掘的研究及其实现代码(二)词图切分
引言
社区检测算法
关于网络社区检测算法的原理介绍,我放另一份博客中:网络社区检测讲解 词图切分的过程原理说明
模块度的公式如下: 步骤一:创建倒排索引一部电影有上万条评论,所以我先采用Spark做评论词条化,从而构建词项词典(dictionary)和倒排记录表(posting)。保存到一个reverseIndex.txt的文件中,形成的结果图如下: 具体实现的代码,我放到github上:倒排索引代码 步骤二:构建词语网络,词图切分形成倒排索引后,我本来打算使用PMI去计算词语之间的关联程度,但计算出来的PMI值相差不大,造得切分出来的效果十分的差。后来我转变了一下,改为先是通过词语出现频率过滤低频词语,然后根据计算词语之间的支持度,代替原来的PMI。构建好词语网路之后,就利用BGLL进行切分。切分的效果如图: 可以看出话题之间词语的关联性也相对比较强的,例如大蛇丸的儿子,国语配音等话题。 后记
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |