-
大数据分析系列在线课程的学习札记之二
所属栏目:[大数据] 日期:2020-12-14 热度:55
Getting and Cleaning Data (Week 2)学习要点 1)访问MySQL 第一步: 安装MySQL 先根据所使用的操作系统安装合适的MySQL,所有的操作步骤都详细的列在以下官方网址上了。 http://dev.mysql.com/doc/refman/5.6/en/installing.html 第二步:安装RMySQL包。[详细]
-
数据处理程序的一点经验
所属栏目:[大数据] 日期:2020-12-14 热度:126
? ? ? 背景:前几天,同事告诉我DSR(内部一个数据处理应用)又挂了,这次的数据丢失特别严重,有25天的数据受到影响。这已经是上线来的第三次出问题了,如果再不认真处理,下次肯定还会有这种问题。 结合同事经常抱怨的事情和我自己的经验,数据处理程序里[详细]
-
文莱王子娶22岁数据分析师 婚礼奢华满眼土豪金
所属栏目:[大数据] 日期:2020-12-14 热度:122
【数据哥注】 12日文莱王子大婚 ,这个国土面积仅相当于上海,但人均GDP位列世界前5的国家简直富得流油,婚礼在有着1788间房间,5个巨大游泳池,257间卫生间和110个车库的王宫里举行!那么问题来了,你知道这位幸福的新娘是谁吗?我们一起来八一八。。。 文[详细]
-
颠覆大数据分析之Spark弹性分布式数据集
所属栏目:[大数据] 日期:2020-12-14 热度:89
颠覆大数据分析之Spark弹性数据集 译者:黄经业 ? ?购书 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多[详细]
-
大数斐波那契取模模板
所属栏目:[大数据] 日期:2020-12-14 热度:124
大数斐波那契取模: #include cstdio#include cstring#include iostreamusing namespace std;const int mod=19999997;typedef struct{ long long m[2][2];}matrix;matrix I={1,1};matrix P={0,1,1};matrix mul(matrix a,matrix b){ int i,j,k; matrix c; for[详细]
-
求一个大数的阶乘的位数
所属栏目:[大数据] 日期:2020-12-14 热度:101
1.先符上题目,来自杭电OJ1018 Big Number Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 29511????Accepted Submission(s): 13540 Problem Description In many applications very large int[详细]
-
大数问题
所属栏目:[大数据] 日期:2020-12-14 热度:136
大树阶乘 #includestdio.h#includeiostream#includealgorithm#includemath.h#includestring.husing namespace std;char *strrev(char *s){ int i,len; char c; len=strlen(s); if(len%2==0) { for(i=0;i=len/2-1;i++) { c=s[i];s[i]=s[len-1-i]; s[len-1-i]=[详细]
-
颠覆大数据分析之Spark VS分布式共享内存系统
所属栏目:[大数据] 日期:2020-12-14 热度:142
颠覆大数据分析之Spark VS分布式共享内存系统 译者:黄经业 ? ?购书 Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不 同。DSM系统允许单独读写内存,而Spark只允许进行[详细]
-
数据挖掘算法——关联规则挖掘算法
所属栏目:[大数据] 日期:2020-12-14 热度:158
1基本概念 1.1引入:购物篮分析 假定作为超市的销售经理,你想更多地了解顾客的购物习惯,尤其是,你想知道“顾客可能会在一次购物同时购买哪些商品?”经常同时购买的商品可以摆放的近一些,以便进一步刺激这些商品同时销售。也可以将硬件和软件摆放在商店[详细]
-
zoj 1180 Self Numbers(大数,灵活题)
所属栏目:[大数据] 日期:2020-12-14 热度:82
In 1949 the Indian mathematician D.R. Kaprekar discovered a class of numbers called self-numbers. For any positive integer n,define d(n) to be n plus the sum of the digits of n. (The d stands for digitadition,a term coined by Kaprekar.) Fo[详细]
-
什么是文本挖掘?大数据该挖掘什么?
所属栏目:[大数据] 日期:2020-12-14 热度:163
什么是文本挖掘 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。 文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具 ,它从数据挖掘发展而来,但与传统的数[详细]
-
大数加减法 C语言 包含负数
所属栏目:[大数据] 日期:2020-12-14 热度:147
#define _CRT_SECURE_NO_WARNINGS #includestdio.h #define MAXSIZE 10 void Add(char a[],char b[],char c[]); void Sub(char a[],char c[]); int Get_len(char a[]); bool Max_a(char a[],char b[]); int main(void) { char a[MAXSIZE]; char b[MAXSIZE];[详细]
-
集体智慧编程chapter 2提供推荐<寻找相似性的用户>
所属栏目:[大数据] 日期:2020-12-14 热度:103
“ 协作型过滤 ”:对一大群人进行搜索,并从中找出一们口味相近的一小群人 主要介绍了两种方法: 欧几里德距离 原理? :这是一种比较简单的计算相似度的方法,它们经过人们一对待评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考查他们彼此间的距离[详细]
-
颠覆大数据分析之RDD的表达性
所属栏目:[大数据] 日期:2020-12-14 热度:79
颠覆大数据分析之 RDD 的表达性 译者:黄经业 ? ?购书 正如前面在比较Spark及DSM系统时所提到的,由于RDD只支持粗粒度的操作,因此它有一定的局限性。但是RDD的表达性对于大多数程序而言其实 已经足够好了。AMPLabs团队他们仅花了数百行代码就开发出了整个Pr[详细]
-
1540: 第k大数 两个数组元素相乘后的第k大( 二分答案 + 输入输
所属栏目:[大数据] 日期:2020-12-14 热度:124
1540: 第k大数 Time Limit: 10 Sec Memory Limit: 128 MB Submit: 104 Solved: 6 [Submit][Status][Web Board] Description 有两个序列a,b,它们的长度分别为n和m,那么将两个序列中的元素对应相乘后得到的n*m个元素从大到小排列后的第k个元素是什么? Inpu[详细]
-
几种优秀的大数库总结
所属栏目:[大数据] 日期:2020-12-14 热度:118
几种优秀的大数库: GMP库:GMP大数库是GNU项目的一部分,诞生于1991年。是一个任意精度的大整数运算库,包括任意精度的带符号整数、有理数、浮点数的各种基本运算操作。它是一个c语言的库,但是官方提供了c++的包装类,主要的应用方向是密码学、网络安全、[详细]
-
[BZOJ3110]K大数查询|线段树套线段树
所属栏目:[大数据] 日期:2020-12-14 热度:178
妈呀这题好神好神好神。。我发现主席树好像做不了呀。。咋全写的是线段树套线段树呢。。后来还是看黄学长的代码看懂了。。果然我是看黄学长博客长大的。。有两种做法,大部分人是外层权值线段树,内层区间线段树,这个我写了,还是很好写。。 lyd 给了一种外[详细]
-
简单的文本相似性测量(Python实现)
所属栏目:[大数据] 日期:2020-12-14 热度:99
一、数据集与测试集 数据集: 测试集: imaging databases 二、Python代码 # -*- coding: utf-8 -*-"""Created on Mon Apr 13 09:49:25 2015@author: Administrator"""import numpyimport sysimport scipy as sp import osimport nltk.stem as stmenglish_st[详细]
-
颠覆大数据分析之Spark弹性分布式数据集
所属栏目:[大数据] 日期:2020-12-14 热度:126
Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入[详细]
-
大数据实用理论学习
所属栏目:[大数据] 日期:2020-12-14 热度:52
学习散仙大神同学关于大数据知识,真是受益匪浅 学习转载地址:http://qindongliang.iteye.com/blog/2173091 ? 随着大数据的爆红,数据分析师这个职位也得到了越来越多的关注,千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”,可是,你[详细]
-
深度:大数据分析对于中国医疗保险管理的价值(N多案例分析+附下
所属栏目:[大数据] 日期:2020-12-14 热度:137
作者: 张岚,总监,医疗保险及医院管理事业部 引言 随着大数据在各行各业的应用和扩展,医疗领域大数据及其分析技术也正日益赢得人们的关注。那么大数据在医疗领域指的是什么?又有什么样的特点?我们知道,广义上的大数据指的是所涉及的信息量规模巨大,无[详细]
-
基于节点列表的项集表示框架的频繁项集挖掘最新进展
所属栏目:[大数据] 日期:2020-12-14 热度:159
最新的论文在Expert Systems with Applications 2015 42卷13期上发表。 这篇论文采用等价类提升的策略,极大地提升了挖掘的速度,并且节省了内存消耗。所形成的PrePost+算法在时间和空间的性能度要明显优于PrePost和FIN算法。 PrePost+算法的下载地址为:htt[详细]
-
poj 2506 Tiling 【大数】
所属栏目:[大数据] 日期:2020-12-14 热度:62
Tiling Time Limit: 1000MS ? Memory Limit: 65536K Total Submissions: 8000 ? Accepted: 3885 Description In how many ways can you tile a 2xn rectangle by 2x1 or 2x2 tiles? Here is a sample tiling of a 2x17 rectangle. Input Input is a sequence[详细]
-
BI(商业智能)
所属栏目:[大数据] 日期:2020-12-14 热度:85
今天逛招聘网站看到几个新名词,暂时记载下来,以后可以考虑深入了解学习。 BI (Business Intelligence)即 商务智能 ,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的 业务 经营决[详细]
-
颠覆大数据分析之Shark:分布式系统上的SQL接口
所属栏目:[大数据] 日期:2020-12-14 热度:58
颠覆大数据分析之 Shark :分布式系统上的 SQL 接口 译者:黄经业 ? ?购书 内存计算已经成为了海量数据分析的一个重要范式。这一点可以从两个方面来进行理解。一方面,尽管当要查询的数据达到了PB级,但是由于时间和 空间的局限性,在一个集群环境上仅需64GB[详细]
