-
[BI项目记]-搭建代码管理环境之创建团队项目
所属栏目:[大数据] 日期:2020-12-14 热度:89
?? 此篇主要介绍如何基于TFS环境创建团队项目来进行项目代码的版本管理工作,这一系列将侧重于BI项目,当然对于其它项目也同样适用。 ? 在TFS里开始一个项目,我们首先需要创建一个团队项目。 在Team Explorer中点击Create a New Team Project… 给团队项目[详细]
-
备份与恢复系列 六 续 日志挖掘(Log Miner)找回update语句
所属栏目:[大数据] 日期:2020-12-14 热度:169
在上一篇的试验中使用logminer可以很容易的找到误删除的表,下面来看一个关于update的例子。 1.创建一个数据字典 EXECUTE dbms_logmnr_d.build( - ? ? ? ? dictionary_filename = 'dictionary.ora',- ? ? ? ? dictionary_location = '/home/oracle'); 2.产生[详细]
-
备份与恢复系列 六 日志挖掘(Log Miner)找到误删除表的SCN
所属栏目:[大数据] 日期:2020-12-14 热度:95
Log Miner是一个工具。可以用来观察和分析redo log的内容。 当Oracle数据块内容发生改变时,重做信息(redo)被写入当前的联机重做日志中。重做文件包括更改时间、对象标识符、更改的SCN号,在数据块中发生的操作和其他的重要信息,而且包括undo段中恢复块的[详细]
-
大数阶乘
所属栏目:[大数据] 日期:2020-12-14 热度:140
转载请注明出处:http://www.voidcn.com/article/p-fcurcdrb-mq.html 很久没写算法了,今天突然想写一下大数阶乘运算,花了一个多小时写了一个demo,具体算法时间空间复杂度优化并没有考虑,有兴趣可以自己研究一下。 什么都不用说了附上代码: public class[详细]
-
大数据处理之一
所属栏目:[大数据] 日期:2020-12-14 热度:139
搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,[详细]
-
日志挖掘 log miner
所属栏目:[大数据] 日期:2020-12-14 热度:168
日志挖掘 log miner 一、log miner的作用: 数据库恢复中有时会需要对Redo log进行分析, 要会使用log miner,以便确定要恢复的时间点或SCN 二、有两种日志挖掘方法 针对DML和DDL,整理如下 : 1.对语句DML进行日志挖掘: 1)添加database补充日志 SQLALTER[详细]
-
【大数据】为大数据处理点亮一盏明灯 Spark知识系统化整理分享
所属栏目:[大数据] 日期:2020-12-14 热度:150
麦肯锡认为:数据科学家是21世纪最性感的职业。 数据客,致力于传播大数据思维的科技媒体,与您分享最有价值的大数据故事,最实用的大数据技术,以及最有潜力的创业企业。 Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室,当初的目的在于将内存内[详细]
-
NYOJ 28 大数阶乘
所属栏目:[大数据] 日期:2020-12-14 热度:180
这是做的第一道大数乘法题,之前一道腾讯校招试题 也用的是大数,不过是大数加法,并且在做这道题的时候发现了一种很好的处理数位的方法。 时间限制: 3000 ?ms ?|? 内存限制: 65535 ?KB 难度: 3 描述 我们都知道如何计算一个数的阶乘,可是,如果这个数很[详细]
-
BI - Cube概念
所属栏目:[大数据] 日期:2020-12-14 热度:155
BI中的OLAP分析现主要使用数据立方体理论 Data Cube,from?http://www.zhihu.com/question/19955124 基本 cube模型 上卷(Roll-up)、下钻(Drill-down)、切片(Slice)、切块(Dice)、旋转(Pivot) 表形式展现为[详细]
-
HDU 大数模板之Children’s Queue
所属栏目:[大数据] 日期:2020-12-14 热度:161
#includeiostream#includecstring#includeiomanip#includealgorithm#includeiostreamusing namespace std;#define MAXN 9999#define MAXSIZE 10#define DLEN 4class BigNum{private: int a[500]; //可以控制大数的位数 int len; //大数长度public: BigNum(){[详细]
-
HDOJ 1865 1sting(大数斐波那契数列)
所属栏目:[大数据] 日期:2020-12-14 热度:57
1sting Time Limit: 5000/1000 MS (Java/Others)????Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 4024????Accepted Submission(s): 1497 Problem Description You will be given a string which only contains ‘1’; You can merge tw[详细]
-
字符串处理大数问题
所属栏目:[大数据] 日期:2020-12-14 热度:124
#includeiostream#includestringusing namespace std;string add(string s1,string s2){ int j,l,la,lb; string max,min; max=s1; min=s2; if(s1.length()s2.length()) { max=s2; min=s1; } la=max.size();//计算字符串长度 lb=min.size(); l=la-1; for(j=lb[详细]
-
人机交互、大数据分析:移动互联网的技术创新探索
所属栏目:[大数据] 日期:2020-12-14 热度:177
?? 人机交互、大数据分析:移动互联网的技术创新探索 ????? 摘要: 5月31日下午,在“奇点大学中国区学员选拔大赛总决赛”的赛场上,从数百个参赛者中脱颖而出,来自移动应用、智能硬件、航天工程、生物医疗、人工智能等各个领域的10位创业者,展示了各自团[详细]
-
为大数据处理点亮一盏明灯 Spark知识系统化整理分享
所属栏目:[大数据] 日期:2020-12-14 热度:150
Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室,当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候,Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在2009年以MapReduce为基础构建起分析模型实在[详细]
-
[BI项目记]-搭建代码管理环境之签入代码
所属栏目:[大数据] 日期:2020-12-14 热度:165
?? 此篇主要介绍如何基于TFS环境创建进行BI项目最简单的代码签入和签出工作。 ? 首先介绍BI项目中的SSAS项目。SSAS项目主要包含Cube多维数据集和数据挖掘模型,是在微软BI产品体系中重要的一个组件。这里使用微软官方SQL Server的示例项目。 打开项目,项目[详细]
-
[BI项目记]-对项目文件进行规划
所属栏目:[大数据] 日期:2020-12-14 热度:193
?? BI项目中会有很多不同种类的项目,此篇会对这些项目进行一个总结,并且在TFS中进行分类。 ? 根据笔者对BI项目的经验和理解,主要将BI项目中的项目类型进行如下分类: ? DB脚本 DB脚本是BI项目中重要的部分,而且一个项目大多数时间基本都是围绕着一个DB做[详细]
-
[BI项目记]-DB脚本同步
所属栏目:[大数据] 日期:2020-12-14 热度:168
?? BI项目中会有很多不同种类的项目,其中比较比较大的一部分就是对DB脚本的处理。然而DB的脚本毕竟无法在项目中进行维护,所以这里介绍如何对DB的脚本进行版本上的维护。 ? 数据库脚本本身没有项目模板支持,很难进行版本管理维护,通常只能通过文件脚本的[详细]
-
Twitter发布新的大数据实时分析系统Heron
所属栏目:[大数据] 日期:2020-12-14 热度:98
Twitter发布了新开发的数据实时分析平台Heron,以下为官方文档摘译: 我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样,实时分析这些事件是一个巨大的挑战。目前,我们主要的分析平台是 开源 的分布式流计算系统 Storm 。但是随着Twitter数据规模[详细]
-
大数据处理之二
所属栏目:[大数据] 日期:2020-12-14 热度:136
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词 1、利用每个词的哈希值,进行5000求余,分发到1~5000为名的文件当中,就平均而言每个文件大小会是200K左右 2、针对步骤1产生的结果,如果大于1[详细]
-
【干货】大数据分析:微信购物用户研究报告
所属栏目:[大数据] 日期:2020-12-14 热度:68
2015年第一季度,京东移动订单占比42%,同比增幅329%。京东微信购物上线一年整,吸引了超过3亿7500万人次参与营销活动和互动。京东与易观智库联合发布《微信购物一周年发展研究报告》,通过大数据分析,挖掘社交平台上的电商用户购买偏好、价格敏感、互动喜[详细]
-
语义分析语义关联挖掘
所属栏目:[大数据] 日期:2020-12-14 热度:171
摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档[详细]
-
Twitter发布更快的大数据实时分析系统Heron
所属栏目:[大数据] 日期:2020-12-14 热度:179
特性: Off the shelf scheduler :通过抽象出调度组件,我们可轻易地在一个共享的基础设施上部署,可以是多种的调度框架,比如Mesos、YARN或者一个定制的环境。 Handling spikes and congestion :Heron 具有一个背压机制,即在执行时的一个topology中动态[详细]
-
Twitter发布新的大数据实时分析系统Heron
所属栏目:[大数据] 日期:2020-12-14 热度:125
昨日,Twitter发布了新开发的数据实时分析平台Heron,以下为官方文档摘译: 我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样,实时分析这些事件是一个巨大的挑战。目前,我们主要的分析平台是开源的分布式流计算系统Storm。但是随着Twitter数据规[详细]
-
Twitter发布新的大数据实时分析系统Heron
所属栏目:[大数据] 日期:2020-12-14 热度:145
昨日,Twitter发布了新开发的数据实时分析平台Heron,以下为官方文档摘译: 我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样,实时分析这些事件是一个巨大的挑战。目前,我们主要的分析平台是开源的分布式流计算系统Storm。但是随着Twitter数据规[详细]
-
一次业务数据处理的设计图
所属栏目:[大数据] 日期:2020-12-14 热度:67
没有使用webservice进行业务处理,JDBC速度快[详细]
