python – 通过关注者排名在推文中查找主题的好算法?
我是数据挖掘和实验的新手. 假设我有N个推特用户和我想找的东西 然后我想合并所有主题,如果有足够的相似但仍然 所以基本上是按权限排名的“重要”主题列表(用户的推特数量) 例如,像news.google.com,但排名将基于负责主题的Twitter粉丝. 我更喜欢python中的一些东西,因为那是我最熟悉的语言. 有任何想法吗? 谢谢 编辑: 基本上分析各种数据及其相互关系:工作类别和每个人的年龄或单词类别和朋友数量,如本例所示. 我将在哪里开始解决这个问题并生成这样的图表? 最佳答案
一般来说:R有一些专门针对文本挖掘和数据挖掘的软件包,提供了广泛的技术.我不知道Python中的那种软件包,但这并不意味着它们不存在.我只是不会自己实现它,它比第一眼看上去要复杂一点.
你需要考虑的一些事情: >定义“主题”:这是他们使用的标签吗?你是否对标签进行分组你有一个有限集的小名单,或者是无限制的集合? 如果您对此有一个大致的了解,可以开始使用tm package以可行的格式提取所有信息.该包基于矩阵和元数据对象.这些允许您获得不同主题的加权频率,前提是您已定义了您认为的主题.您还可以使用不同的加权函数来获得所需的内容.手册是here.但如果您不确定自己在做什么,也请访问crossvalidated.com获取额外的指导.这实际上是关于数据挖掘的问题而不是关于编程的问题. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |