-
BitMap(位图)
所属栏目:[大数据] 日期:2020-12-14 热度:131
? 1K=1024byte ? 1M=1024K=1024*1024byte(约100万个字节) ? 1G=1024M=1024*1024K=1024*1024*1024byte(约10亿个字节) ? 假设现在有40亿个不重复且无序的无符号整数,现在给你一个整数让你快速判断它是否在这40亿个数里面???(假设现在只有4G的内存) ? 这[详细]
-
BloomFilter(布隆过滤器)
所属栏目:[大数据] 日期:2020-12-14 热度:173
bloomfilter(布隆过滤器): ? 要判断一个元素是否在一个集合中出现,一般情况下就是将这个集合的元素保存下来,然后再到这个集合中一一比较即可,但是如果这个集合中的元素很多的话,不仅需要的内存很大,而且查找起来也比较慢。 ? 为了提高效率我们可以采用[详细]
-
《深入理解大数据-大数据处理与编辑实践》hadoop1.2.1安装
所属栏目:[大数据] 日期:2020-12-14 热度:100
【第一部分】《深入理解大数据》一书的源代码? http://download.csdn.net/detail/heming621/9423291 http://hadoop.apache.org/ https://www.zhihu.com/question/19795366 http://mooc.guokr.com/course/2194/%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%B3%BB%E7%BB%9F[详细]
-
深度挖掘,你的工资拖后腿了吗?
所属栏目:[大数据] 日期:2020-12-14 热度:177
编辑推荐 嗯,不管是官方统计局还是民间组织,每次有数据机构发布“平均工资”这种信息的时候,大家都是无比感兴趣的。不过,除了少数土豪之外,想必不少人在看过数据之后,都会感慨自己又拖后腿啦!等等,如果所有人都在拖后腿,这样的评估方法是不是有什么[详细]
-
字符串相似性的几种度量方法
所属栏目:[大数据] 日期:2020-12-14 热度:63
无论是做科学研究,还是工程项目,我们总是会碰上要比较字符串的相似性,比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多,到底使用哪一种方法来计算相似性,这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方[详细]
-
计算机指令的流水处理--挖掘之四
所属栏目:[大数据] 日期:2020-12-14 热度:135
计算机指令的处理方式有三种:顺序、重叠、流水。 1.顺序执行就是一个接一个的处理指令,好处是控制简单,缺点是速度慢,利用率低。 2.重叠是分析完一条指令执行当前指令的时候,可以继续分析下一条。这样看上去至少利用率提高了,当然缺点还是有的,例如相[详细]
-
【独家】工业大数据深度挖掘应用与技术实现 干货+精彩问答
所属栏目:[大数据] 日期:2020-12-14 热度:187
[导读] 本讲座选自清华经管学院经研95级校友 朱喻先生 于2016年9月21日在“技术·前沿”系列讲座上所做的题为 《工业大数据深度挖掘应用与技术实现》 的演讲。 工业大数据我一开始接触的时候也比较模糊,大数据这个概念已经有了很久了,很长一段时间我也思[详细]
-
如何围绕企业战略,建设BI驾驶舱?
所属栏目:[大数据] 日期:2020-12-14 热度:155
随着企业的逐步发展,人员的增加、业态的复杂不仅对管理也对信息化的要求越来越高,甚至需要从战略角度出发,进行从上至下的全面推行。 关于这个话题,某公司深有体会。面对这样的瓶颈,一方面从优化信息架构、调整IT管理模式、重视工具选型来提升信息水平;[详细]
-
【交易技术前沿】以史为鉴”行情大数据分析探索 \/ 尹卓
所属栏目:[大数据] 日期:2020-12-14 热度:156
? 本文选自 《交易技术前沿》 第十四期 (2014年3月)。 尹卓 上海证券交易所.通信公司.200120 E-mail:zyin@stocom.net 摘要: 本文简述了目前利用行情分析股票交易的现状,结合目前大数据的概念,提出了利用大数据行情分析股票买卖的方法,对输入、模型与输[详细]
-
双11技术专题 | 如何快速挖掘“非结构化数据”金矿
所属栏目:[大数据] 日期:2020-12-14 热度:105
明天就是双 11 ,电商 IT 架构在承载双 11 狂欢购物潮中除了要保证其平台的可用性、响应时间和弹性扩展方面。还要面临着数据收集处理的需求, 上期内容 『电商用户画像系统背后的 IT 架构实践』 中,我们谈到“每一个电商平台都像是一个储量丰富、数据精准增[详细]
-
案例 | 利用R语言对玩家付费行为进行深度挖掘
所属栏目:[大数据] 日期:2020-12-14 热度:101
????? 以下内容 来自《R语言游戏数据分析》,将于2017年出版,未经许可,不得转载 。在做付费用户深度挖掘时,需要利用不同的算法从不同角度进行研究,当中的数据转换是令人头疼的工作。如果大家对数据转换感兴趣,请关注此书。 ? ? ?? 传统行业一直都崇尚“[详细]
-
Atitit 数据处理查询 中的异常标准化草案 jpa jdbc hb oql规范at
所属栏目:[大数据] 日期:2020-12-14 热度:83
Atitit 数据处理查询 中的异常标准化草案 jpa jdbc hb ?oql 规范 attilax 总结 ? Javaee6 与 net 异常规范 1 Jpa 规范 JPA 全称 Java? Persistence API. 1 Jdbc api 1 Hibernate api 1 ? ? Javaee6 与 net 异常规范 Jpa 规范 from jee6 Jpa 规范 JPA 全称 Ja[详细]
-
从自制到MCN,背靠北影的“勿幕”想先挖掘师弟妹的生产力
所属栏目:[大数据] 日期:2020-12-14 热度:70
毋庸置疑短视频创业还在风口上。 短视频赛道里已是一片红海,新晋玩家们该如何出头? 文|二水水 毋庸置疑短视频创业还在风口上。这个领域的持续火热和大平台不断加码有直接联系:除了美拍秒拍快手,和他们背后的美图、新浪(微博),就连靠做图文内容分发的[详细]
-
大数运算
所属栏目:[大数据] 日期:2020-12-14 热度:86
//大数加法 hdu 1002(可练习hdu 1715,1753,2100)#include iostream#includecstdio#includecstringusing namespace std;const int N=1500;int a[N],b[N];char a1[N],b1[N];int main(){ int t,cas=1; cint; while(t--){ memset(a,sizeof(a));memset(b,sizeof(b[详细]
-
相联存储器--挖掘之五
所属栏目:[大数据] 日期:2020-12-14 热度:67
相联存储器是一种按内容访问的存储器。 工作原理:把数据和数据的某一部分作为关键字,按顺序写入信息,读出时并行地将该关键字与存储器中的每一个单元进行比较,找出存储器中所有与关键字相同的数据字,特别适合信息的检索和更新。 具体的工作流程:输入的[详细]
-
高速缓存--挖掘之六
所属栏目:[大数据] 日期:2020-12-14 热度:95
·高速缓存用来存放当前最活跃的程序和数据,其特点:容量一般在几千字节到几兆字节之间;速度一般比主存快5到10倍,由快速半导体存储器构成;其内容是主存局部域的副本,对程序员是透明的。 高速缓存有两部分组成:控制部分和存储器部分 控制部分的功能是判[详细]
-
统计学相关概念及机器学习中样本相似性度量之马氏距离
所属栏目:[大数据] 日期:2020-12-14 热度:105
均值、标准差、方差: 样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资、年收入等等,只有个文字游戏而已。 标准差描述的是样本集合中的各个样本点到均值的距离的平均值。以[详细]
-
流数据处理的博文
所属栏目:[大数据] 日期:2020-12-14 热度:177
The world beyond batch: Streaming 101 A high-level tour of modern data-processing concepts. By Tyler Akidau August 5,2015 Three women wading in a stream gathering leeches (source: Wellcome Library,London). Editor's note: This is the first[详细]
-
大数据为企业带来了竞争优势的4种方式
所属栏目:[大数据] 日期:2020-12-14 热度:54
点击上方蓝色字体关注。 您还可以搜索公众号“ D1net ”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO,企业协作,网络数通,信息安全,企业移动应用,系统集成,服务器,存储,呼叫中心,视频会议,视频监控等)的子公众号。 ======= 不久前,[详细]
-
国内外主流BI工具介绍和点评
所属栏目:[大数据] 日期:2020-12-14 热度:59
商业智能的应用在国外已广为普及,并且开始不断探索大数据和云技术。而国内,商业智能BI工具在这几年才开始慢慢被接受,企业开始有意识地建立一体化数据分析平台,为经营决策提供分析。 从国内企业使用情况来看,BI工具的应用以国外产品为主,包括SAP BO、Or[详细]
-
中国金融科技50强之“百分点”大数据分析
所属栏目:[大数据] 日期:2020-12-14 热度:124
中国金融科技50强之“百分点”大数据分析 公司 :百分点集团 百分点简介: 成立于2009年,已完成D轮融资,D轮融资4亿元,累计融资7亿元,主要投资商有光大证券、高瓴资本、东方星空创投、IDG资本、名信中国成长基金。 业务领域: 大数据 核心技术: 成熟的大[详细]
-
虚拟存储器--挖掘之七
所属栏目:[大数据] 日期:2020-12-14 热度:159
虚拟存储技术是把很大的程序或者数据分成许多较小的块,全部存储在辅存中。运行时,要把用到的程序块或者数据块先调入主存,并且把马上要用到的程序块从主存调入到高速缓存。这样,一边运行程序,一边进行所需的程序块或者数据块的调进/调出。只要及时供应所[详细]
-
国内外主流BI工具介绍和点评
所属栏目:[大数据] 日期:2020-12-14 热度:147
商业智能的应用在国外已广为普及,并且开始不断探索大数据和云技术。而国内,商业智能BI工具在这几年才开始慢慢被接受,企业开始有意识地建立一体化数据分析平台,为经营决策提供分析。 从国内企业使用情况来看,BI工具的应用以国外产品为主,包括SAP BO、Or[详细]
-
大数据分析界的“神兽”Apache Kylin有多牛?
所属栏目:[大数据] 日期:2020-12-14 热度:179
本文是5月23日大数据杂谈群分享的内容。 关注“大数据杂谈”公众号,点击“加群学习”,更多大牛一手技术分享等着你。 实习编辑:Melody 大家好,我是今天做微信分享的李栋,来自Kyligence公司,也是Apache Kylin Committer PMC member,在加入Kyligence之前[详细]
-
从大数据中挖掘什么?
所属栏目:[大数据] 日期:2020-12-14 热度:144
本文内容来自:李航博士的新浪博客 网址:http://blog.sina.com.cn/s/blog_7ad48fee0101cgy0.html 导读 大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集、处理、挖掘的整个过程中都需要认真考虑的问题。本文首先提出大数据挖掘的几项策略,即[详细]