加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

MIT研发出超前「数据科学机器DSM」:用人类的方式进行大数据分析

发布时间:2020-12-14 02:15:03 所属栏目:大数据 来源:网络整理
导读:译者:孙薇 原文链接:http://www.technewsworld.com/story/82635.html 小象科技原创作品,欢迎大家疯狂转发; 机构、自媒体平台转载务必至后台留言,申请版权。 日前,MIT研究人员宣布,他们已经开发了一个算法系统来分析大数据,而这个系统最终有可能在这

译者:孙薇

原文链接:http://www.technewsworld.com/story/82635.html

小象科技原创作品,欢迎大家疯狂转发;

机构、自媒体平台转载务必至后台留言,申请版权。


日前,MIT研究人员宣布,他们已经开发了一个算法系统来分析大数据,而这个系统最终有可能在这一领域取代人类。

该系统被命名为“数据科学机器(DSM)”,它能够设计特征集,并寻找大数据中隐藏的规律。MIT表示,DSM的首个原型机在参加一场竞赛时,需要在不熟悉的数据集中寻找预测模式,而它预测获胜者的准确率高达96%;在另外两场竞赛中,准确率也分别达到94%和87%。

Enderle Group的首席分析师Rob Enderle表示:“事实上,在这种情况下它能够代替数据科学家,而数据科学家本身是很稀缺的资源。

即便只有87%,这个数字也要优于未受训练的人员,而且对于数据科学家来说这个结果足够接近细化结果了,从而大幅减少了项目所需时间。”


1

DSM的工作原理

大数据分析是寻找潜在的规律模式,并从中推算来进行预测,不过研究人员首先需要确定,要找的数据库具有哪些特征。


DSM的目标是通过所谓的“特征工程”,自动选出特征集。


这项研究是由研究生Max Kanter与自己的论文导师——MIT的计算机科学与人工智能实验室的研究科学家Kalyan Veeramachaneni一同进行的,他们使用了特征工程中的各种技术。


其中一个是利用数据库设计的内在结构关系,通过不同表格中的数据来跟踪关联性。DSM将数据从一张表格中导入到另一张,观察其关联,并执行操作来生成特征待选项。随着关联数的增加,通过互相堆叠操作来找到类似最小平均值与总和平均值之类的数据。


DSM也会寻找限定在一个有限的范围值中的分类数据,如品牌名称。通过跨类别划分现有特征,从而生成未来可用的待选项。一旦大量待选数据生成,DSM会在其中寻找关联,并剔除掉没有关联的那些,然后对精简过的样本数据特征集进行测试,用各种方式将其结合,来优化预测结果的准确性。


2

深度学习

Tirias Research的首席分析师Jim McGregor评论:“它确实与深度学习有关,那就是服务器平台分析数据与开发智能算法的能力。”


DSM的研究“证明了像谷歌、百度、阿里巴巴、微软之类的公司所进行研究的价值,并指出了一些挑战。”开发智能算法“是一种学习的科学”。“无需第一次就必须得出正确答案,随着时间流逝,反馈越多、数据越多,准确率也就越高。”


机器学习和深度学习的潜力无限,并且“由于允许机器与人类更具有生产力,将会改变我们的行业与社会。”


3

飞速解决问题

MIT称,人类团队通常需要好几个月来创建预测算法模式,而DSM创建每个模型只需2到12个小时。即使在竞赛中DSM的表现逊于人类团队,其结论依旧很有价值。


技术分析师Jim McGregor表示,“想想开发对付超级病毒的专杀工具需要多长时间吧,在病毒肆虐前根本没有几个月的时间,只有数天的解决问题时间。”在这种情况下,“我们不是在寻找正确答案,而是去除大量或者大部分的错误答案以便找到可能的答案。”


Enderle表示,在十年内,这样的系统“如果继续进步的话,应当能够在准确率上媲美甚至超越人类。”


他警告我们:风险在于如果我们继续依赖这样的自动化系统,就可能失去自行解决问题所需要的技能,而无法发现系统犯的错误。“未来系统所产生的重大缺陷可能因无人发现而导致惨痛的结果。”


Kanter将在本周于巴黎举行的IEEE数据科学与高级分析国际会议上发表他的论文。



参与本文讨论请猛戳“阅读原文”

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读