python使用jieba实现中文分词去停用词方法示例
前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式,试图将句子最精确地切开,适合文本分析; 2 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
#coding=utf-8 import jieba. analyse stopwords=[] for word in open('stopwords.txt','r'): stopwords.append(word.strip()) article=open('1.txt','r').read() words=jieba.cut(article,cut_all=False) stayed_line="" for word in words: if word.encode("utf-8")not in stopwords: stayed_line+=word+" " print stayed_line w=open('2.txt','w') w.write(stayed_line.encode('utf-8')) 总结 以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对编程小技巧的支持。 您可能感兴趣的文章:
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- Python基础—07-函数使用(01)
- python – 允许在Django ChoiceField中进行动态选择
- Django objects.all()、objects.get()与objects.filter()之
- python – matplotlib中的绿色到红色的colormap,以数据的
- python – Pip,Virtualenv和Git项目设置和引导
- python – numpy.mod()和numpy.remainder()之间有什么区别?
- 有人说这几行代码价值两亿?我写出来了!两亿在哪里领啊?
- python – 烧瓶应用程序的多域配置
- 使用pandas在“to_csv”中添加注释
- Python数学库独立于C数学库和平台独立?