加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Windows > 正文

文章高频词生成词云的方法

发布时间:2020-12-14 05:33:24 所属栏目:Windows 来源:网络整理
导读:最近在学python3一直遇到这个错误,在网上查了很多,说是windows系统的问题云云。 import jieba import wordcloud from scipy.misc import imread mask=imread("C:UserssglPicturesFivestar.jpg") #添加图片,图片需要改为白底 f=open("新时代中国特

最近在学python3一直遇到这个错误,在网上查了很多,说是windows系统的问题云云。

import jieba
import wordcloud
from scipy.misc import imread
mask=imread("C:UserssglPicturesFivestar.jpg") #添加图片,图片需要改为白底
f=open("新时代中国特色社会主义.txt","r",encoding="gbk") #如utf-8报错则改为 gbk
t=f.read()
f.close()
ls=jieba.lcut(t) #分词,赋值给列表
txt=" ".join(ls) #词与词之间加空格
w = wordcloud.WordCloud(width=1000,font_path="msyhl.ttc",height=700,background_color="white",mask=mask,max_words=1255)
w.generate(txt)
w.to_file("wordcloud.png")

?

此程序执行之后出现错误,说是无法转成utf-8。

解决方法:
将utf-8改成gbk

f=open("关于实施乡村振兴战略的意见.txt",‘r+‘,encoding=‘gbk‘)
1
2
运行程序结果如下,不再报错。

utf-8与gbk的区别与联系: 字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。 至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。 GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。 GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准) UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。 比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。 UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大--------------------- 作者:wardseptember 来源:CSDN 原文:https://blog.csdn.net/wardseptember/article/details/80198857 版权声明:本文为博主原创文章,转载请附上博文链接!

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读