-
hdoj 字串数 1261 (排列组合&大数乘除法)好题
所属栏目:[大数据] 日期:2020-12-14 热度:105
字串数 Time Limit: 2000/1000 MS (Java/Others)??? Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 3923??? Accepted Submission(s): 953 Problem Description 一个A和两个B一共可以组成三种字符串:"ABB","BAB","BBA". 给定若干字母和它[详细]
-
并行计算是非常值得挖掘的
所属栏目:[大数据] 日期:2020-12-14 热度:61
在工作和学习中,我接触到不少研究人工智能相关的人,但是很少有人了解并行计算,而且几乎没有人对并行计算技术愿意付出精力来了解,即使他们的工作是以工程应用为目的的。我觉得这种状况很可悲,因为很多技术在少数人挖掘的时候,等到普及了,这些少数人就[详细]
-
大数据有大价值 顶尖公司大数据收入榜单
所属栏目:[大数据] 日期:2020-12-14 热度:197
据了解,互联网上每一秒钟传输的视频,需要花费一个人5年的时间才能看完。可以说,用“海量、爆炸性增长”来形容大数据,已经不是什么新鲜事了。(以下数据来自:2015年中国大数据交易白皮书) 据统计,2014年全球大数据市场规模达到285亿美元,实现53.23%的增[详细]
-
0x09 文本相似性,词袋向量化
所属栏目:[大数据] 日期:2020-12-14 热度:195
01 自然语言 人类的语言,经过了几千年积累,已经形成了完整体系。对人而言,识别其中的意思是比较容易的。可电脑却不同,要想识别其中的字词是很困难的。 自然语言处理中,最简单的是判断两个文本的相似性。简单说,就是两段话或者两篇文档,判断他们是否表[详细]
-
电商数据分析基础方法:分拆,跟着用户走
所属栏目:[大数据] 日期:2020-12-14 热度:81
在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我们需要用到很多的分析工具,这里我们只介绍最常用和基础的分析方法:拆分。 一、看数[详细]
-
余弦距离、欧氏距离和杰卡德相似性度量的对比分析
所属栏目:[大数据] 日期:2020-12-14 热度:139
1、余弦距离 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要[详细]
-
电商数据分析方法:分拆,跟着用户走
所属栏目:[大数据] 日期:2020-12-14 热度:54
在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我们需要用到很多的分析工具,这里我们只介绍最常用和基础的分析方法:拆分。 1 看数据[详细]
-
大数据预测雾霾以及存在的商机
所属栏目:[大数据] 日期:2020-12-14 热度:163
来源:中国环境报、腾讯科技 近段时间,全国范围内尤其是京津冀地区接连陷入雾霾之困,北京更是频频发布空气重污染红色预警,中小学连续停课,机动车单双号限行。雾霾的背后,重污染天气的预警预测工作显得尤为重要,不仅可以让公众提前合理安排生产生活,也[详细]
-
大数据有大价值 顶尖公司大数据收入榜单
所属栏目:[大数据] 日期:2020-12-14 热度:170
据了解,互联网上每一秒钟传输的视频,需要花费一个人5年的时间才能看完。可以说,用“海量、爆炸性增长”来形容大数据,已经不是什么新鲜事了。(以下数据来自:2015年中国大数据交易白皮书) 据统计,2014年全球大数据市场规模达到285亿美元,实现53.23%的增[详细]
-
文本挖掘 入门笔记1
所属栏目:[大数据] 日期:2020-12-14 热度:147
分 词 文 档 模 型 文本序列 特征空间的变化[详细]
-
数据分析基础内容介绍 — 模型、工具、统计、挖掘与展现
所属栏目:[大数据] 日期:2020-12-14 热度:185
1. 数据分析多层模型介绍 这个金字塔图像是数据分析的多层模型,从下往上一共有六层: 底下第一层称为Data Sources 元数据层。 比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据[详细]
-
学习Tableau的六大好处(一个交互式的可视化BI工具)
所属栏目:[大数据] 日期:2020-12-14 热度:144
我在Udemy上教授Tableau课程,我希望能通过以下的六点来告诉你Tableau是否值得学习: 1.快速创建交互式绘图 Volume,variety和velocity,对吗?如今3V不仅定义了大数据,而且准确的概括了数据科学家所做的项目。 多数人是这样的:业务的问题唯一,并且以难以[详细]
-
BI
所属栏目:[大数据] 日期:2020-12-14 热度:157
四种BI 开源工具介绍-SpagoBI,openI,JasperSoft,Pentaho 1 BI系统的简述 从技术角度来说 BI 包含了 ETL、DW、OLAP、DM等多环节。简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用[详细]
-
大数据:2016年, 商业智能和数据分析领域的新趋势
所属栏目:[大数据] 日期:2020-12-14 热度:153
1946年2月14日,地球上第一台电子计算机诞生。在这70年的岁月里,信息科技深刻地改变了人类社会。尤其是在新世纪里,互联网和 大数据 引领变革的潮流,人类历史掀开了最为绚烂的一页。在2016年,我们依然将看到商业世界会发生巨大的变化。新的 数据分析 工具[详细]
-
伪大数A/B问题
所属栏目:[大数据] 日期:2020-12-14 热度:59
A/B Problem 时间限制: 1000 ?ms ?|? 内存限制: 65535 ?KB 难度: 3 描述 ? 做了A+B Problem,A/B Problem不是什么问题了吧! 输入 每组测试样例一行,首先一个号码A,中间一个或多个空格,然后一个符号( / 或者 % ),然后又是空格,后面又是一个号码B,[详细]
-
第K大数算法分析、设计与实现(Java)
所属栏目:[大数据] 日期:2020-12-14 热度:132
问题描述: 有一个大小为n的数组A[0,1,2,…,n-1],求其中第k大的数。 ? 策略: (1)?? 判断问题的性质,是排序型?最优型?其他? (2)?? 根据不同类型的问题挑选不同的算法。“已知算法-递归-分治-贪心-回溯法-分支限界法-动态规划-算法设计” (3)?? 根[详细]
-
大数据分析技术生态圈一览
所属栏目:[大数据] 日期:2020-12-14 热度:147
大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。 一体化工具/商业智能 Datameer 这是一款面向Hadoop的自助服务式、无数据库模[详细]
-
大数据分析型产品对比之ODPS篇
所属栏目:[大数据] 日期:2020-12-14 热度:106
之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的ODPS。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。但在尝试使用ODPS后,--ODPS感觉也是一款不错的大数据分[详细]
-
开源大数据处理工具汇总(上)
所属栏目:[大数据] 日期:2020-12-14 热度:90
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache H[详细]
-
开源大数据处理工具汇总(下)
所属栏目:[大数据] 日期:2020-12-14 热度:72
作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设[详细]
-
2016年, 商业智能和数据分析领域的新趋势
所属栏目:[大数据] 日期:2020-12-14 热度:114
1946年2月14日,地球上第一台电子计算机诞生。在这70年的岁月里,信息科技深刻地改变了人类社会。尤其是在新世纪里,互联网和大数据引领变革的潮流,人类历史掀开了最为绚烂的一页。在2016年,我们依然将看到商业世界会发生巨大的变化。新的数据分析工具将出[详细]
-
BloomFilter——大规模数据处理利器
所属栏目:[大数据] 日期:2020-12-14 热度:106
原文链接:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 实例 为了说明Bloom[详细]
-
FFT之大数乘法
所属栏目:[大数据] 日期:2020-12-14 热度:172
1 #include iostream 2 #include stdio.h 3 #include cmath 4 #include algorithm 5 #include cstring 6 #include vector 7 using namespace std; 8 #define N 50500*2 9 const double PI = acos(- 1.0 ); 10 struct Vir 11 { 12 double re,im; 13 Vir( doub[详细]
-
基于mdrill的大数据分析
所属栏目:[大数据] 日期:2020-12-14 热度:99
数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的[详细]
-
网购评论是真是假?文本挖掘告诉你
所属栏目:[大数据] 日期:2020-12-14 热度:113
刚刚过去的双11、双12网络购物节中,无数网友在各个电商网站的促销大旗下开启了买买买模式。不过,当你在网上选购商品时,同类的商品成千上万,哪些因素会影响你选购某件商品呢?商品评论一定是一个重要的参考吧。一般我们总会看看历史销量高不高,用户评论[详细]