加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

我应该挖掘哪些算法/概念来进行作者预测

发布时间:2020-12-14 04:31:44 所属栏目:大数据 来源:网络整理
导读:我一直致力于尝试的事情 通过使用我自己的数据集找出列的作者. 我打算用mlpy python库.它有很好的文档, (约100页pdf).我也对其他图书馆开放 建议. 问题是,我迷失在数据挖掘和机器学习中 概念.有太多的工作,太多的算法和 概念. 我在问路,我应该学习哪些算法/
我一直致力于尝试的事情
通过使用我自己的数据集找出列的作者.

我打算用mlpy python库.它有很好的文档,
(约100页pdf).我也对其他图书馆开放
建议.

问题是,我迷失在数据挖掘和机器学习中
概念.有太多的工作,太多的算法和
概念.

我在问路,我应该学习哪些算法/概念,
并搜索我的具体问题.

到目前为止,我已经构建了一个类似这样的数据集.

| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A      |         2 |         4 |         6 | ..                 |
| A      |         1 |         1 |         5 | ..                 |
| B      |        12 |        15 |         9 | ..                 |
| B      |        13 |        13 |        13 | ..                 |

现在,我将获得一个新列并解析它,之后我会拥有所有
专栏的功能,我的目标是弄清楚谁
该专栏的作者是.

因为我不是一个ML家伙,所以我只能想到两者之间的距离
所有行上的功能并选择最接近的行.但我很确定
这不是我应该去的方式.

我很欣赏任何指示,链接,阅读等.

解决方法

如果您有足够的训练数据,那么您可以使用kNN(k-Nearest Neighbor)分类器.它很容易理解,但功能强大.

检查scikits.ann是否有可能的实施.

This tutorial在这里作为scikits-learn的一个很好的参考.

编辑:此外,这是kNN of scikits-learn的页面.您可以从给定的示例中轻松理解它.

而且,mlpy也是seems to have kNN.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读