MIT研发出超前「数据科学机器DSM」：用人类的方式进行大数据分析

发布时间：2020-12-14 02:15:03 所属栏目：大数据来源：网络整理

导读：译者：孙薇原文链接：http://www.technewsworld.com/story/82635.html 小象科技原创作品，欢迎大家疯狂转发；机构、自媒体平台转载务必至后台留言，申请版权。日前，MIT研究人员宣布，他们已经开发了一个算法系统来分析大数据，而这个系统最终有可能在这

译者：孙薇

原文链接：http://www.technewsworld.com/story/82635.html

小象科技原创作品，欢迎大家疯狂转发；

机构、自媒体平台转载务必至后台留言，申请版权。

日前，MIT研究人员宣布，他们已经开发了一个算法系统来分析大数据，而这个系统最终有可能在这一领域取代人类。

该系统被命名为“数据科学机器（DSM）”，它能够设计特征集，并寻找大数据中隐藏的规律。MIT表示，DSM的首个原型机在参加一场竞赛时，需要在不熟悉的数据集中寻找预测模式，而它预测获胜者的准确率高达96%；在另外两场竞赛中，准确率也分别达到94%和87%。

Enderle Group的首席分析师Rob Enderle表示：“事实上，在这种情况下它能够代替数据科学家，而数据科学家本身是很稀缺的资源。

即便只有87%，这个数字也要优于未受训练的人员，而且对于数据科学家来说这个结果足够接近细化结果了，从而大幅减少了项目所需时间。”

DSM的工作原理

大数据分析是寻找潜在的规律模式，并从中推算来进行预测，不过研究人员首先需要确定，要找的数据库具有哪些特征。

DSM的目标是通过所谓的“特征工程”，自动选出特征集。

这项研究是由研究生Max Kanter与自己的论文导师——MIT的计算机科学与人工智能实验室的研究科学家Kalyan Veeramachaneni一同进行的，他们使用了特征工程中的各种技术。

其中一个是利用数据库设计的内在结构关系，通过不同表格中的数据来跟踪关联性。DSM将数据从一张表格中导入到另一张，观察其关联，并执行操作来生成特征待选项。随着关联数的增加，通过互相堆叠操作来找到类似最小平均值与总和平均值之类的数据。

DSM也会寻找限定在一个有限的范围值中的分类数据，如品牌名称。通过跨类别划分现有特征，从而生成未来可用的待选项。一旦大量待选数据生成，DSM会在其中寻找关联，并剔除掉没有关联的那些，然后对精简过的样本数据特征集进行测试，用各种方式将其结合，来优化预测结果的准确性。

深度学习

Tirias Research的首席分析师Jim McGregor评论：“它确实与深度学习有关，那就是服务器平台分析数据与开发智能算法的能力。”

DSM的研究“证明了像谷歌、百度、阿里巴巴、微软之类的公司所进行研究的价值，并指出了一些挑战。”开发智能算法“是一种学习的科学”。“无需第一次就必须得出正确答案，随着时间流逝，反馈越多、数据越多，准确率也就越高。”

机器学习和深度学习的潜力无限，并且“由于允许机器与人类更具有生产力，将会改变我们的行业与社会。”

飞速解决问题

MIT称，人类团队通常需要好几个月来创建预测算法模式，而DSM创建每个模型只需2到12个小时。即使在竞赛中DSM的表现逊于人类团队，其结论依旧很有价值。

技术分析师Jim McGregor表示，“想想开发对付超级病毒的专杀工具需要多长时间吧，在病毒肆虐前根本没有几个月的时间，只有数天的解决问题时间。”在这种情况下，“我们不是在寻找正确答案，而是去除大量或者大部分的错误答案以便找到可能的答案。”

Enderle表示，在十年内，这样的系统“如果继续进步的话，应当能够在准确率上媲美甚至超越人类。”

他警告我们：风险在于如果我们继续依赖这样的自动化系统，就可能失去自行解决问题所需要的技能，而无法发现系统犯的错误。“未来系统所产生的重大缺陷可能因无人发现而导致惨痛的结果。”

Kanter将在本周于巴黎举行的IEEE数据科学与高级分析国际会议上发表他的论文。

▼
参与本文讨论请猛戳“阅读原文”

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!