加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

LDA与Python – 输入文件

发布时间:2020-12-20 11:43:03 所属栏目:Python 来源:网络整理
导读:我在 Python中运行lda库,我正在运行这个例子.有谁知道X,词汇和标题的格式?我找不到文档. import numpy as npimport ldaX = lda.datasets.load_reuters()vocab = lda.datasets.load_reuters_vocab()titles = lda.datasets.load_reuters_titles() 解决方法 X
我在 Python中运行lda库,我正在运行这个例子.有谁知道X,词汇和标题的格式?我找不到文档.

import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()

解决方法

X是一个矩阵,其中行是标题,而列是词汇.它是标题文字的一个单词表示.

X
Out[8]: 
array([[1,1,...,0],[7,2,[0,[1,0]],dtype=int32)

在上面的矩阵中,每一行都是一个单个标题的单词表示.每列代表一个特定的单词示例.

vocab[:5]
Out[5]: ('church','pope','years','people','mother')

因此,X矩阵中的每一行i,col j给出第i个标题中特定单词的频率.

titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)

标题U:查尔斯王子……提到教会一次,教皇0次,年一次,等等.

In [13]: type(titles)
Out[13]: tuple

In [14]: type(vocab)
Out[14]: tuple

In [15]: type(X)
Out[15]: numpy.ndarray

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读