我应该挖掘哪些算法/概念来进行作者预测

发布时间：2020-12-14 04:31:44 所属栏目：大数据来源：网络整理

导读：我一直致力于尝试的事情通过使用我自己的数据集找出列的作者. 我打算用mlpy python库.它有很好的文档, (约100页pdf).我也对其他图书馆开放建议. 问题是,我迷失在数据挖掘和机器学习中概念.有太多的工作,太多的算法和概念. 我在问路,我应该学习哪些算法/

我一直致力于尝试的事情
通过使用我自己的数据集找出列的作者.

我打算用mlpy python库.它有很好的文档,
(约100页pdf).我也对其他图书馆开放
建议.

问题是,我迷失在数据挖掘和机器学习中
概念.有太多的工作,太多的算法和
概念.

我在问路,我应该学习哪些算法/概念,
并搜索我的具体问题.

到目前为止,我已经构建了一个类似这样的数据集.

| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A      |         2 |         4 |         6 | ..                 |
| A      |         1 |         1 |         5 | ..                 |
| B      |        12 |        15 |         9 | ..                 |
| B      |        13 |        13 |        13 | ..                 |

现在,我将获得一个新列并解析它,之后我会拥有所有
专栏的功能,我的目标是弄清楚谁
该专栏的作者是.

因为我不是一个ML家伙,所以我只能想到两者之间的距离
所有行上的功能并选择最接近的行.但我很确定
这不是我应该去的方式.

我很欣赏任何指示,链接,阅读等.

解决方法

如果您有足够的训练数据,那么您可以使用kNN(k-Nearest Neighbor)分类器.它很容易理解,但功能强大.

检查scikits.ann是否有可能的实施.

This tutorial在这里作为scikits-learn的一个很好的参考.

编辑：此外,这是kNN of scikits-learn的页面.您可以从给定的示例中轻松理解它.

而且,mlpy也是seems to have kNN.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!