加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

用数据解读时事政治 对《政府工作报告》进行文本挖掘

发布时间:2020-12-14 01:59:03 所属栏目:大数据 来源:网络整理
导读:文|王成军 2016年3月2日,中国进入“两会”时间。政协第十二届四次会议与人大十二届四次会议的开幕对于中国经济发展决胜开局具有至关重要的意义。3月5日上午,十二届全国人大四次会议开幕,国务院总理李克强作政府工作报告,系统总结了2015年政府工作,并为



文|王成军


2016年3月2日,中国进入“两会”时间。政协第十二届四次会议与人大十二届四次会议的开幕对于中国经济发展决胜开局具有至关重要的意义。3月5日上午,十二届全国人大四次会议开幕,国务院总理李克强作政府工作报告,系统总结了2015年政府工作,并为转型期的中国经济发展提出了新的方向。分析《政府工作报告》成为社会各界关注两会的重要视角。


为了更好地理解《政府工作报告》,本文对自1954年以来的47次《政府工作报告》的文本进行自动化分析。首先,我们对2016年《政府工作报告》的文本通过提取关键词的方式进行分析。对文本进行分词、统计词频后,即可通过词云的方式展示。比如2016年政府工作报告的关键词如下(如图1所示):


发展(139)、 建设(68)、 经济(67)、 改革(62)、 推进(62)、 创新(56)、 加快(42)、 加强(41)、 政府(40)、 促进(37)、 实施(36)、 增长(36)、 企业(35)、 政策(35)、 推动(34)、 社会(34)、 中国(32)、 提高(31)、 我们(30)、 全面(28)、 完善(27)、 扩大(26)、 工作(26)、 制度(26)、 实现(25)、 就业(24)、 人民(24)、 支持(24)、 坚持(23)、 我国(22)、 国家(21)、 一批(21)、 创业(21)、 安全(21)、 农村(20)、 合作(20)、 国际(20)、 继续(19)、 地方(19)、 服务(19)、 投资(19)、 积极(19)、 取得(19)、 基本(18)、 落实(18)、 加大(18)、 机制(18)、 今年(18)、 地区(17)、 问题(17)

图1 2016年《政府工作报告》的词云

与单纯计算词频的衡量方法相比,词与词之间的距离和关系也需要考虑。为此,我们采用了两种测量方法(tfidf和textrank),以保证测量的准确性。采用tfidf方法,排名前五十的词语依次是: 发展、推进、改革、建设、创新、加快、经济、加强、促进、实施、政府、推动、完善、政策、全面、增长、社会、就业、企业、提高、创业、扩大、制度、坚持、一批、深化、人民、落实、支持、农村、试点、实现、安全、合作、工作、我国、动能、机制、加大、服务业、城镇、我们、服务、取得、依法、积极、中国、深入、结构性、民生

采用textrank的测量方法,排名前五十的词语依次是: 发展、建设、经济、改革、推进、创新、加强、加快、政府、推动、促进、实施、企业、政策、社会、制度、中国、提高、完善、全面、增长、扩大、支持、实现、工作、机制、创业、人民、服务、农村、试点、地方、坚持、国家、国际、继续、就业、合作、基本、加大、农业、投资、保护、问题、地区、依法、工程、取得、鼓励、建立

可见,这两种算法得到的结果基本一致。为了更好的比较这两个结果,我们将其绘制在同一张图上,见图2所示。各个关键词基本分布在一条直线上证明两种算法具有一致性。这两种算法也有区别,tfidf划分出的词语的重要性分布在0到0.07之间,而textrank计算的词语重要性分布范围更广,在0到1之间。无论采用哪一种算法,重要的词语占少数,多数词语的重要性较低,因而在图2当中聚集在一起。但是这些重要性得分低的词语虽然处于长尾分布上,却对我们正确理解《政府工作报告》的细节具有很大的作用,我们将在后文具体分析。

图2 2016年《政府工作报告 》词语重要性的分布

先来看一下重要性最大的词语。由图2可以显著地发现“发展”是2016年的最强音,处于第一个重要性台阶上;建设、改革、推进、创新则处于第二个重要性台阶上;“加强”、“加快”、“经济”则位于第三个重要性的台阶上;其它的词语则位于第四个台阶上。 此外,分析词语重要性随着时间的变化可以给我们带来更多洞见。例如,根据人民网报道,2016年政府工作报告59次提“创新” 达前两年之和。可见“创新”是2016年政府工作的重中之重。为此我们将以上讨论的词语(“发展”、“经济”、“改革”、“创新”)的重要性随时间变化的情况绘制出来,如下图3所示。

图3 “发展”、“经济”、“改革”、“创新”四个关键词重要性演变

由图3我们可以发现,其实“发展”在过去40多年来的一直非常高,这体现了中国历次《政府工作报告》对于“发展”的高度重视,只有少数年份存在波动,比如1990年和2007年。

与之相比,其它重要关键词则远没有如此稳定,根据每年的施政目标不同而呈现波动情况。例如,在过去四十年里面,“改革”经历了从剧烈起伏到小幅度波动的变化,但其五年滑动平均值维持在0.6左右;而“经济”一词在历次《政府工作报告》中则呈现稳定下降的趋势。这与中国经济在过去几十年里持续增长的情况相关,因为经济情况的持续改善,国家和人民对于生活其他方面的需求不断增加。例如,人民网就2016两会热点进行了调查,388万人次参与了网络投票,数据显示的主要议题排名为:社会保障(507289票)、居民收入(475184票)、医疗改革(435342票)、打虎拍蝇(435342票)、教育公平(413165票)、住房(387930票)、环境保护(356641票)、司法改革(283129票)。这充分显示了公众对于社会福利、公平正义的强烈追求。

图4 “环境”和“住房”两个关键词重要性演变

这种需求的持续增长,使得政府工作的多样性增加。以“环境”和“住房”两个关键词为例(见图4),虽然它们的重要性都不高,但是随着时间变化,它们的重要性程度不断增加。在过去三年里对“环境”和“住房”的强调一直在增加。两千年后,对于“环境”的强调超过对于“住房”的强调,除了一些少数年份,比如最近三年(2014-2016)、北京奥运会之后的四年(2008-2011)等。

图5 “教育”、“社会保障”、“医疗”三个关键词重要性演变

当然,这并不绝对,《政府工作报告》对于“教育”一词的强调基本上是在下降的;对于“社会保障”的强调在2000年后大幅度上升,一直持续到2013年,在2014年达到历史最低点,2015和2016两年仅仅略有回升;“医疗”在2000年之后的《政府工作报告》中不断被强调,但2006年之后开始下降,直到2013年之后又开始继续上升,见图5。这些动态变化,在某种程度上反映了政府工作重点的转移。 不仅如此,我们还可以从《政府工作报告》中发现中国的产业重点及其演化过程。除了一些特殊年份,“工业”和“农业”两个词语在《政府工作报告》中几乎是同步变化的,但是从九十年代中期之后《政府工作报告》更强调农业而非工业。虽然重要性依然不大,我们可以观察到2000年之后,“制造业”和“服务业”在《政府工作报告》中的重要性不断增加。尤其是服务业,根据报告所言:“服务业在国内生产总值中的比重上升到50.5%,首次占据”半壁江山””。在2016年的报告中,“服务业”一词的重要性超过“工业”、“制造业”,接近“农业”一词的重要性,见图6。

图6 “工业”、“农业”、“制造业”、“服务业”四个关键词重要性演变

解读2016《政府工作报告》,我们可以发现一些崭新的词语,比如“新动能”。“动能”一词被提及14次,虽然总数量不多,却是解决现有问题的一剂良药,见图7。比如报告中指出“展新动能加快成长。创新驱动发展战略持续推进,互联网与各行业加速融合,新兴产业快速增长。大众创业、万众创新蓬勃发展,全年新登记注册企业增长21.6%,平均每天新增1.2万户。新动能对稳就业、促升级发挥了突出作用,正在推动经济社会发生深刻变革”。不仅有“新动能”而且有“老动能”,这是推动中国向前发展的“双引擎”。本文发现“动能”一词是本届政府才有的词语,在2015年《政府工作报告》中第一次被提及,在2016年的报告中被重点强调。虽然其词语重要性不高,但其增长趋势非常强,代表了政府最近工作的重点。

图7 “动能”和“互联网”两个个关键词重要性演变

最后,本文采用主题模型对2016年《政府工作报告》的主题进行自动化的分析。采用主题模型的算法可以将2016年政府工作报告分为20个主题,如下图8所示,通过手工合并同类别主题,可以概括为:供给增收、就业创业、宏观调控、社会保障脱贫扶贫、经济投资财政支出、金融规范、出口贸易、环境节能环保问题、规划进取创新改革、香港澳门台湾问题、消费问题11个大主题。

图8 2016年《政府工作报告》的主题模型结果

结论和讨论

2015年是十二五规划的最后一年,也是中国开始迎来结构性转型的一年。中国在十二五阶段取得了辉煌的成就,在全球经济低迷的时间,中国经济依旧强劲,作为世界上第二大经济体在2015年依然维持了6.9%的经济增长率,产业转型效果显著,服务业成为占主导性的产业。与此同时,一系列的发展问题不容忽视:经济放缓、中等收入陷阱挑战到来、出现产能过剩、制造业低迷、金融市场在2015年经历了大起大落、增加流动性银行降息后的房地产增长迅速、环境问题等。2016年作为十三五开局之年,政府如何布局至关重要,2016年《政府工作报告》为我们提供了一个完整的答案。

图9 社会主义与马克思主义

发展依然是硬道理。只有继续保持发展,才能继续保持领先。在过去40年里,发展一直是《政府工作报告》的首要关注点。政府对于发展的追求,保证了中国经济的持续崛起,解决了中国经济转型中出现的一系列社会问题。虽然2015年中国的经济开始放缓,金融领域尤其是股票市场出现波动,为了保障中国社会的稳定,依然必须抓住发展不放松。采取各种措施,“以开放促改革,促发展”。保持经济中高速增长,推动产业迈向中高端水平,发展是第一要务。

创新成为新的亮点。创新驱动发展,2016年《政府工作报告》格外强调了发展新动能的重要性。中国经济结构正在面临剧烈的转型:服务业开始主导经济主体;互联网行业大放异彩,互联网+策略驱动下各行各业加速融合;中小微企业开始发力,政府扶持大众创业、万众创新。纵观2016《政府工作报告》,创新体现在了政府工作的几乎每一方面:既包括促进科研转化,产学研相结合,也包括在宏观调控和货币政策方面继续创新,结构性减税,增加对实体经济的支持,还有提质增效,促进产业创新,积极化解过剩产能。毫无疑问,2016年将成为中国政府的创新之年。对于高校而言,尤其值得注意的是,“实施哲学社会科学创新工程,发展文学艺术、新闻出版、广播影视、档案等事业。建设中国特色新型智库”被2016年《政府工作报告》明确强调。

发展和改革从来都不是简单的事情,必然面临着挑战和坎坷。需要警醒的是伴随着中国经济结构化转型阶段的到来,传统行业虽然具有充裕的资金,但缺乏创新发展意识所带来的问题。需要防范实体经济的企业因为无法在本行业内维持盈利,而冒险进入资本市场的问题。就目前而言,房价成为社会焦点,也成为两会热议的问题:一方面是一二线城市的再度火爆、供不应求,另一方面是三四线城市的库存高。地方政府在面临经济转型的时候容易拿土地开刀,借着中央政府去库存的方针,掀起新一轮房地产开发的泡沫。尤其需要警惕大型企、事业单位将流动资金投入房地产开发的趋势。实体经济转入资本市场和房地产行业,一方面会带来经济泡沫,长期而言也会成为企业创新发展的障碍。

作者:王成军,传播学博士,南京大学新闻传播学院助理研究员。集智俱乐部科学委员会成员。曾参与翻译《社会网络分析:方法与实践》(2013),合著《社交网络上的计算传播学》(2015)。对数据科学感兴趣,主要采用python和R编程,写了一个R包networkdiffusion和两个python包:iching 和scholarNetwork。2014年创立并维护计算传播学网站。研究领域:计算传播学,致力于采用计算社会科学地研究方法分析人类传播行为,具体包括社会化媒体与信息扩散、公共讨论、注意力流动、互联网数据挖掘等。

End.

感谢你耐心的看完,鞠躬ing。
一直最用心,行业最强音。
如果你觉得内容对你有帮助,希望你转载到朋友圈分享给更多的人。
传递知识,传递快乐。

回复对应数字,查看对应系列文章
1
数据可视化 ?5篇系列文章
2
推荐系统 ? ? 5篇系列文章
3
机器学习 ? ?5篇系列文章
4
随机森林和支持向量机 ? 5篇系列文章
5
成为数据科学家 ? ? 5篇系列文章
6
大数据面试题 ? ? ? 5篇系列文章
7
大数据工具 ? ? ? ? ?5篇系列文章
8
?大数据应用案例 ?5篇系列文章
9
新手上路,数据行业入门学习5篇系列文章
36大数据是一个专注大数据创业、大数据技术与分析、大数据入门学习的商业新媒体。分享大数据在电商、移动互联网APP、医疗及金融银行等领域的落地应用。

36大数据是百度大数据首席战略合作媒体。也是WeMedia自媒体联盟成员。

网站:36dsj.com
?读者QQ群②:190771709
投稿邮箱:dashuju36@qq.com
扫一扫二维码关注我们,订阅每日最新干货

点击下方 “阅读原文”查看更多
↓↓↓

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读