闲话互联网开放型数据价值挖掘
文·blogchong
早在一两个星期前,就一直在思考一个问题,那就是基于互联网开放型数据的价值挖掘,对应其具体的应用场景,以及具体的落地方式。 这一段时间一直没有停止过探索,以及寻求这个问题的答案,所以,这段时间一方面在和不同的同行们请教、交流,另一方面自己也在不停的思考这个话题。
所谓互联网开放型数据,即在互联网上遵循公开性准则的前提下的开放数据。 是的,遵循公开准则的数据,只要获取的方式正确,其数据的使用也是合法的。 互联网开放型数据,是一座开放的数据金山,只是鲜有人能够开采,俞或者说难以挖掘。 早在去年5月份的时候,曾在阿里研究院投稿并发表过一篇文章《DT时代变革的反思》,文中曾提到过:
2015年5月的时候,可能互联网数据价值挖掘这个话题,还没有现在这么清晰。 但现在,不管大大小小的公司,都有或多或少从互联网上爬取并且利用其中的数据。 对于互联网数据的价值可利用性,这点我一直是坚信不疑的。 而不解的是是否有能够具体产业化落地的形式,而不是这种边边角角式辅助性挖掘。
这段时间和不少朋友交流,当然,更多的可能是请教,关于互联网数据在金融方面的落地。 诸如,基于大数据的风控、征信等等。 我们知道,这两年互联网金融很火爆,当然,这个风口也被p2p毁的差不多的。 抛开p2p不说,现在确实很多人在探索大数据在互联网金融方面的应用。 包括现在国外很火的fintech,即金融科技。也很大程度上依赖于智能化、数据化的能力。 但就从目前来看,诸如基于大数据的风控、征信等,看起来更像是一个伪命题。 比如贷款的征信报告,不管是臭名昭著的p2p也好,或者正规的贷款审核也好,他们更多依赖于芝麻信用分,或者银行的信用报告,甚至是一些大型网站的消费记录,或者政府机构的信息平台等。 这些基础信息的可用度远大于互联网上的开放型数据,不单纯是可信度的问题(涉及金融,信息可信度尤为重要),其清洗的成本也很高,因为很多隐私信息在开放集里是相对难获取的。 这就容易造成投入与产出不成比例。 基于互联网大数据的征信、风控等,我想,估计还是有很长一段路要走的。 2 互联网数据收集售卖。 这个就比较好理解了,基本就是数据爬取,清洗,规整,出售的模式了。 典型如数据堂,虽然其号称有众包模式的数据采集途径,但网络数据的获取依然是其重要的获取方式途径。 因为这里除了人力技术成本,是不需要其他额外成本的。 特别是我相信在早期的时候,数据堂更是以采集数据为核心运作的。 售卖数据这一模式可以行吗? 人家数据堂去年都B轮2.4亿融资了,你说可不可行。
所谓微信生态,当然更多的是指微信公众号的生态。 基于微信公号新媒体的崛起,更很多深耕于微信公众号的自媒体们大放光彩。有人群聚集的地方就有利益的追逐。 现在很多自媒体们寻求着粉丝的变现,又称之为粉丝经济。最常见的如广告的投放,再诸如闪购式商品售卖。 以广告投放为例,挖掘自媒体的信息数据,为广告投放做指导,典型如新榜。 它意图将自己打造成一个广告平台,于是将微信公众号的信息进行抽取量化,并进行分门别类,意图将自媒体的广告能力量化,上接广告主,下接流量主。 看起来很行得通。 但是老实讲,新榜的爬虫能力还是蛮可以的,毕竟要把数十万个有质量的号有效的监控起来,这不是一个轻松的活。 但是,它并没有对信息进一步的挖掘,诸如提取各种有用的画像数据等,为其业务做更进一步的指导。 并且据业内人士说,广告更大的核心点在于资源的接入,而这种数据的价值挖掘匹配能力,只是一种辅助的手段。 所以,即使新榜的数据挖掘能力再进一步,在没有引入广告资源的能力前提下,可能一切还是空中楼阁。 当然,我们也不可否认微信生态的数据价值挖掘体现。 在一定的前提下,比如供应链的保障、广告主的保障,那么,数据挖掘挖掘、画像的提取将会是一个加速的体现,会让事情变得更好。
基于互联网开放型数据做行业解决方案、咨询顾问的模式。 这种模式基本算是已经被认可的互联网数据价值落地的模式了。 基于互联网的开放型数据,进行爬取、清洗,规整,并且进行建模,最终产生诸如分析报告、结构化参考信息、顾问咨询信息等。 然后,卖这些结论数据。 典型如IT桔子、企查查、天眼查等等。 IT桔子目标对准于投资顾问市场,不过更多的是依赖于媒体信息,通过清洗出各种投资相关的信息,进行结构化,最终形成有用的参考信息,供投资方参考使用。 而企查查以及天眼查之类的公司,更多的以来的基础数据是政府的开放型数据平台,通过爬取(政府的信息平台,不要指望会开放API),清洗等,更大的在于不同平台的信息关系挖掘,关系链的挖掘,最终呈现更具有权威性的企业信息。 这方面,我最欣赏的是一面数据(免费广告安利,不谢),是一个小公司,但是其也是立足于互联网开放型数据,为企业等生成行业解决方案报告,以数据咨询顾问的角色而存在。 感兴趣的可以关注一下“数据冰山”,确实挺有意思的。 再回到这个话题,以行业咨询顾问模式的落地,基本算是最通用的方式了。
我们知道,2015年国务院出台了《国务院关于印发促进大数据发展行动纲要的通知 》,以及后续陆续有《关于全面推进政务公开工作的意见 》、《十三五战略》等,都有提到大数据。 抛开政府跨部门数据共享、数据开放那部分不谈,单论以大数据提升政务执行效率。 包括政府治理的精细化、商事服务的便捷化、安全保障的高效化等几个大方面。 基于互联网开放型数据,挖掘民众舆情、包括各种地方性论坛、社区、门户信息等,为政务更精准、高效做数据化支撑。 2016年,大数据更是被国家进一步推进。 所以,在未来的三五年,我想,基于互联网开放型数据,是否可以为政务方面提供更多的帮助。 这或许又是一个大数据能够独立产业化落地的一种形式。
当然,除了上述那些,可能还有一些零零散散的应用。 但我更关注的是能否形成一定的产业化格局,而不是单纯作为辅助,内嵌于其他公司,进行数据化加速。 一直会持续关注这个话题,自己也在周末的时候写了些爬虫,尝试爬取政府网站数据,再结合地方性门户、论坛数据,看看是否能够挖掘出一些有用的舆情信息。 尝试探索这个方向,等有结论了再分享出来,也欢迎一起交流、探索~~ 扩展阅读:
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |