加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

如何为sklearn CountVectorizer设置自定义停用词?

发布时间:2020-12-16 23:38:01 所属栏目:Python 来源:网络整理
导读:我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation). 从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率: tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,max_features=n_features,stop_words='english') 其中
我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation).

从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率:

tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,max_features=n_features,stop_words='english')

其中有内置停用词功能,我认为只适用于英语.我怎么能用这个我自己的停用词列表呢?

解决方法

您可以将自己的单词的冻结集分配给 stop_words argument,例如:
stop_words = frozenset(["word1","word2","word3"])

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读