基于改进依赖分析的微博情感倾向性分析

发布时间：2020-12-13 22:15:53 所属栏目：百科来源：网络整理

导读：Research on micro-blog sentiment orientation analysisbased on improved dependency parsing 基于改进依赖分析的微博情感倾向性分析（IEEE2013）文章基于分析微博文本的特性，提出了一个新的改进依赖分析方法分析来分析微博的情感倾向性。改进的算法包括

Research on micro-blog sentiment orientation analysisbased on improved dependency parsing

基于改进依赖分析的微博情感倾向性分析（IEEE2013）

文章基于分析微博文本的特性，提出了一个新的改进依赖分析方法分析来分析微博的情感倾向性。改进的算法包括表情符号和标点符号的情感倾向性分析，通过基于距离语法结构核心情感词的距离来进行情感倾向性分析。

方法：算法通过语法依赖结构决定关键情感词，然后根据依赖关系和微博句子结构词、表情和标点符号距离的语法结构学习它们的情感值，最终决定文本句子情感倾向。

微博特点：（1）文本长度短，结构不标准。微博文本长度通常限制在140字左右，句子结构随意；（2）内容的呈现不是标准化的，微博广泛使用网络语言，表情符号，没有规范标点和习语的使用；（3）话题的强交互，许多微博是话题的评论，需要根据上下文系统分析。

文本情感分析根据文本大小可以划分为单词级，句子级和篇章级；根据不同的分析目的可以分为主客观分析（作者对客观事物的分析）和主观分析（作者自己的体验）；根据处理方法的可以分为基于词典的情感分析和基于机器学习（SVM方法，神经网络和朴素贝叶斯方法）的情感分析；根据是否有人工参与可以分为非监督和监督分类方法，区别在于是否需要人工情感标记。

算法主要的改进是通过依赖分析，围绕情感词，进行情感倾向性分析。

改进的中文依赖分析算法（ICDP）的步骤：首先，基于情感词典给定情感值，然后学习各种单词，表情和标点句子情感值，最后规范化情感倾向，获得平均值来决定文本情感倾向。

基本的中文依赖分析算法

语法分析是基于一个给定的语法系统，自动产生句子的语法结构，分析句子的语法单元和它们的关系，转化为一棵结构分析树。中文文本的语法分析基于中文表意语言和它的写作形式。句子结构比英文更复杂，所以应该首先分析句子，决定单词属性。

依赖分析是一种基于语法规则的分析方法。语法分析的规则是基于人工语法规则，建立语法知识库，通过限制和观察建立语法结构，最终完成分析树。有3种方法：自顶向下，自底向上和二者的结合，参考文献指出二者结合的方法理论上最接近人的语法分析处理方法。

24种相互依赖关系参考文献已经建立。在依赖语法理论，相互依赖即单词的主导和受控关系。

通常的分析算法和主要技术步骤：（1）句子的分词和判断（判断词性）。（2）计算单词倾向性。主要基于情感词典，如HowNet情感倾向性判断，来决定句子中的积极、消极词和主导评价信息词。（3）语法结构分析。通过依赖分析得到结构分析树。（4）计算修饰符倾向。通过分析结构树计算句子中描述的单词，副词，从属词的情感倾向。（5）计算句子情感。分析文本陈述，根据规范化平均处理方法的句子关键词关系决定文本情感倾向。

改进的中文依赖分析

由于微博文本的非标准化语言结构和广泛使用的标点和符号，通常的分析方法不能满足情感分析的高标准要求。

改进的中文依赖性分析算法主要在三个方面改进：（1）增加标点和符号的情感倾向性分析。（2）改进为计算关键情感词的情感倾向性而不是每个词。（3）通过单词和关键情感词之间的语法结构距离决定情感倾向性。

符号的倾向性分析：通过微博应用平台上表情符号的分析和机器学习方法，获得表情符号情感倾向性值“E_e”，这些值记录到新的情感词典。对于标点，通过不同表述的分析，如感叹句，疑问句，修辞问题等，分析情感因子“λ_i”。假设文本情感倾向性值是E_i，则符号词的情感值为：E_f=(E_i+E_e)·λ_i。

分析结构，决定关键情感词，其步骤：（1）根据句子中的核心词（谓语），查找下一个依赖词。（2）判断依赖词是否是形容词或者是名词，否则前往第1步。（3）根据情感词典决定它是否是情感词，否则前往第1步，直到找到情感词“W_m”。（4）当依赖关系是独立子句IC或者从属子句DC，认为IC，DC的从属词为核心词，继续步骤1，决定情感词子句W_h。（5）主从句是根据词的从属关系结构决定，根据主从连接决定主从句和从属子句，决定情感相关倾向率λ_h。

然后考虑主从句和从属子句的关系，句子情感倾向性值：E_h=E(W₁)+E(W₂)·λ_2h…+E(W_i)? λ_ih。E(W₁)，E(W_i)通过主从句和第i个从句计算，W₁，W_i是情感词的主要倾向性值，从句才要乘以从句情感比例λ_h，参考文献给出了8个基本类型主从句的相关情感比例。

单词语法距离的情感分析：语法距离主要用于依赖分析，主要考虑分析树中两个词的检索序列差异的绝对值。这里关注副词相对于关键情感词的语法距离。根据树结构依赖性的分析，句子中的两词只有一条可行的路径，然后词和关键情感词的句子语法距离计算方法为：路径上边的依赖语法距离之和。假定句子情感倾向性原值为E₀，考虑带有影响情感权重λ_i的副词的语法距离，则句子情感倾向性值为E₀与m个λ_i除以d_i商的乘积（i=1，…，m，m为副词数）。

文章随机选择了1000条新浪微博来验证算法，选取准确率P，召回率R和F值作为评价指标。如果情感极性值大于0，短文本为积极的，小于0则消极的，等于0文本为中立的。

结论：改进依赖分析算法，引入标点的情感分析，通过词与关键情感词的语法距离分析，效果比通常的依赖分析好，特别是对于短微博。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!