加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据处理开放数据集

发布时间:2020-12-14 04:04:59 所属栏目:大数据 来源:网络整理
导读:开放数据集合分享 巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。 给大家推荐几个数据集合 1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室,数据子集合涉及社交网络,Ground-Truth社区网络,通信网络,引用网络,协同网络,Web图

开放数据集合分享


巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。 给大家推荐几个数据集合 1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室,数据子集合涉及社交网络,Ground-Truth社区网络,通信网络,引用网络,协同网络,Web图挖掘等16个大类,138个小类,总大小达45.9G。下载地址:http://t.cn/zjdJhPf 2.【Sogou Labs】搜狗实验室语料库 访问地址: http://www.sogou.com/labs/resources.html TB级别互联网语料库,可以用于全文检索的研究。链接关系库,可以用于pagerank计算。互联网图片库,可以用于图片数据计算。全网新闻数据,分类算法研究. 3.【ClueWeb09 语料库】? Web Graph 400G 的数据。是做PageRank 的好材料了。http://t.cn/zTFM4uQ 4.【netflix 电影访问库】 可以用来计算推荐算法 当然这些数据其实都是死数据,如果没有海量用户来访问请求,价值依然无法发挥出来,大数据需要依靠闭环反馈来放大,这大数据也同样意味需要大系统,大用户来支持。不过研究研究也是乐趣,总比没有强吧。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读