从大数据中挖掘什么?
导读 大数据技术涉及存储、搜索、传输、计算、挖掘等多方面,本文只考虑大数据的挖掘。大数据挖掘旨在从大数据中挖掘出未知且有用的知识。通过挖掘,大数据的价值才得以体现,所以挖掘对大数据有着举足轻重的意义。 大数据挖掘有两个基本问题,即“挖什么(what to mine)”与“怎么挖(how to mine)”。前者决定从数据中抽取什么样的信息,统计什么样的规律,后者决定怎样具体进行抽取与统计。前者是在数据的收集、处理、挖掘中都要考虑的问题,后者往往仅限于挖掘。“怎么挖”通常是数据挖掘研究的核心,但是“挖什么”在数据挖掘的应用中往往更为重要,因为它决定了挖掘结果的价值。在实际问题中,决定是挖金银,还是挖铜铁,比决定是用锄头挖,还是用铲子挖更为关键。 2 本文总结了大数据挖掘中判断“挖什么”的四项策略,即尽量设想挖掘的场景,尽量多方面收集数据,尽量将数据整合,以及悉心观察数据特征。下面,结合自己在互联网搜索中的大数据挖掘工作经验,介绍对这些策略的体会。
3
互联网搜索引擎,索引几十亿以上的网页,每天有几十亿次查询,收集几十TB的日志数据。这些数据是典型的大数据。 下面介绍一个互联网搜索日志数据挖掘例子:查询副主题挖掘。这是与微软前同事等的工作[4]。互联网搜索中的查询,或者表示多个语义,或者表示事物的多个侧面,统称为副主题(subtopic)。前者的例子,如图2所示, 查询“harry shum”意味着用户可能要搜索微软的副总裁,也可能是搜索美国的演员。后者的例子,如查询“xbox”意味着用户可能想找游戏攻略,也可能想购买游戏机。如果能判断查询的副主题,那么可以将该搜索结果进行聚类,把同一个副主题的网页放在一起,帮助用户迅速找到想要找的所有信息。根据副主题对搜索结果聚类是一个热门研究课题。传统的方法根据搜索结果中网页摘要的相似度对网页进行聚类,效果并不理想。我们提出的方法事先从搜索日志数据中挖掘出查询的副主题,用户搜索时,根据挖掘好的副主题,对查询结果进行聚类,效果提升显著。副主题挖掘利用了用户搜索的两个现象。 图2.查询“harry shum”有两个副主题(subtopic) 我们观察到的第一个现象是“同一查询同一副主题(one subtopic per search)”。用户每次进行查询时,往往只考虑一个副主题,要搜副总裁的Harry Shum,就不会搜演员的Harry Shum,反之亦然。这一点会反映在用户的日志点击数据上。在同一次搜索中,用户点击的多个网页链接往往集中在同一个副主题上。将某一查询的大量的点击数据汇集起来,根据链接是否常在同一次搜索中被共同点击,可以将它们聚类,就可以挖掘到该查询的副主题,这时,链接的每个类对应一个副主题。 第二个现象是“加关键词明确副主题(Subtopic Clarification by Additional Keyword)”,也可以用于副主题挖掘。用户在查询时,会主动明确副主题,在主查询词的后面(或前面)加上关键词,如“harry shum microsoft”,“harry shum jr”。属于同一副主题的网页链接往往在被加同样关键词的查询中点击,根据链接是否在加同样关键词查询中被点击,可以将它们聚类,得到的类也对应于副主题。 我们的方法能够根据以上两个现象挖掘出查询的每个副主题,副主题由网页链接、以及附加关键词表示。利用特殊的数据结构,可以将Bing的三个月日志数据在一天内进行一次高效的挖掘。对于高频查询,可以得到非常精准的挖掘结果(详见[4])。可以看出,大数据确实能够发挥巨大作用。 另一方面,我们的方法对低频查询无法适用,因为没有足够的点击数据,也就是说会遇到长尾挑战[5]。用户的行为数据大多遵循幂率分布(power law distribution),现在基于统计的数据挖掘方法对尾部数据依然是束手无策。
4
大数据挖掘关键是决定挖什么,这比决定怎么挖更为重要。收集数据时,应该尽量设想挖掘的场景,尽量多方面地记录、采集数据;收集数据后,应该尽量将数据整合在一起;数据挖掘前,应该悉心观察数据,以帮助判断挖掘什么样的知识。只有这样,大数据挖掘的价值才能得以体现。 大数据挖掘极具威力,但也有局限性,会遇到长尾挑战。结合事先给定的知识进行挖掘,或许是解决长尾挑战的一条出路。纽约时报记者能从搜索查询数据中挖掘出用户的身份,也是因为用了基于常识的推理。机器要变得具有同样的智能,需要采用相同的手段。 大数据时代刚刚开始,相信今后在各个领域,各种应用中,大数据挖掘都会推动创新,对技术发展带来巨大影响。这一点确实令人振奋。 大家都想一想从自己拥有的数据中可以挖掘出什么样的金子吧! 参考文献 1. S. Fox,K. Karnawat,M. Mydland,S. Dumais,and T. White,Evaluating Implicit Measures to Improve Web Search. ACM Transactions on Information Systems 23,147-168,2005. 2. Daxin Jiang,Jian Pei,Hang Li,Mining Search and Browse Logs for Web Search: A Survey,ACM Transactions on Intelligent Systems and Technology,2013,to appear. 3.A Face Is Exposed for AOL Searcher No. 4417749,New York Times,2006. 4.Yunhua Hu,Yanan Qian,Daxin Jiang,Mining Query Subtopics from Search Log Data,In Proceedings of the 35th Annual International ACM SIGIR Conference (SIGIR'12),305-314,2012. 5.李航,克服长尾挑战(Overcoming the Long Tail Challenge),新浪博客,http://blog.sina.com.cn/u/2060750830 2012. 版权声明: 转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。 为大家提供与大数据相关的最新技术和资讯。 近期精彩文章(直接点击查看): 160904?2016年创业公司死亡名单:融资10亿、用户千万也救不活了! 160830?被失业!未来六大传统产业将这样被颠覆(超现实) 160829?为何你只能做出渣图表?数据可视化的十大误区 160828?2分钟读懂大数据框架Hadoop和Spark的异同 160827?说说什么是数据挖掘 160823?裁员浪潮+寒冬大逃杀,互联网人该何去何从?? 160820?39个大数据可视化工具,哪个才是你的菜?? 160816?上班族每次在地铁上花费37分钟,经过9.78站|2号线是上海经济命脉|上海地铁数据趣味研究 160812?五亿姓名数据分析|TF-IDF算法揭秘中国人名密码 160803?傅盛:深度学习是什么? 160731?力荐!大数据等各种IT技能图谱(全套13张) 160716?2016年上半年大数据方向就业形势重磅出炉 160714?关于反爬虫,看这一篇就够了 160710?他是比尔盖茨的偶像,用50年写出编程圣经,被奉为程序员鼻祖 160627?Hadoop创始人Doug Cutting谈未来大数据的技术 160614?世界顶尖数据科学家看未来十年大数据发展 160606?为不擅长编程的人准备的19个数据科学工具? 160522?长文 | 大数据思维的十大原理 160520?不让谷歌进来是对的。。。 160519?史上最全的大数据分析和制作工具 更多精彩文章,请在公众号后台回复000查看,谢谢。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |