-
大数乘法
所属栏目:[大数据] 日期:2020-12-14 热度:161
用数组做了一个大数乘法的算法,很粗糙,但很实用 ? 1 #include apue.h ? 2 #define ?MAX ? 100 ? 3? ? 4 void ?my_mulity(char *buf1,char *buf2); ? 5? ? 6 void ?my_mulity(char *buf1,char *buf2) ? 7 { ? 8 ? ? int len1 = 0; ? 9 ? ? int len2 = 0; ?1[详细]
-
HDOJ 1018 Big Number(大数位数公式)
所属栏目:[大数据] 日期:2020-12-14 热度:146
Problem Description In many applications very large integers numbers are required. Some of these applications are using keys for secure transmission of data,encryption,etc. In this problem you are given a number,you have to determine the n[详细]
-
TF-IDF与余弦相似性的应用(一):自动提取关键词
所属栏目:[大数据] 日期:2020-12-14 热度:61
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前[详细]
-
TF-IDF与余弦相似性的应用(二):找出相似文章
所属栏目:[大数据] 日期:2020-12-14 热度:166
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来[详细]
-
TF-IDF与余弦相似性的应用(三):自动摘要
所属栏目:[大数据] 日期:2020-12-14 热度:84
有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行[详细]
-
用数据解读时事政治 对《政府工作报告》进行文本挖掘
所属栏目:[大数据] 日期:2020-12-14 热度:96
文|王成军 2016年3月2日,中国进入“两会”时间。政协第十二届四次会议与人大十二届四次会议的开幕对于中国经济发展决胜开局具有至关重要的意义。3月5日上午,十二届全国人大四次会议开幕,国务院总理李克强作政府工作报告,系统总结了2015年政府工作,并为[详细]
-
蓝桥杯:基础练习 阶乘计算
所属栏目:[大数据] 日期:2020-12-14 热度:77
基础练习 阶乘计算 ? 时间限制:1.0s ? 内存限制:512.0MB ??? ??? 问题描述 输入一个正整数 n ,输出 n !的值。 其中 n !=1*2*3*…* n 。 算法描述 n !可能很大,而计算机能表示的整数范围有限,需要使用高精度计算的方法。使用一个数组 A 来表示一个大整数[详细]
-
蓝桥杯:基础练习 高精度加法
所属栏目:[大数据] 日期:2020-12-14 热度:195
基础练习 高精度加法 ? 时间限制:1.0s ? 内存限制:512.0MB ??? ??? 问题描述 输入两个整数 a 和 b ,输出这两个整数的和。 a 和 b 都不超过100位。 算法描述 由于 a 和 b 都比较大,所以不能直接使用语言中的标准数据类型来存储。对于这种问题,一般使用数[详细]
-
大数的存储问题,计算1~40所有数的阶乘
所属栏目:[大数据] 日期:2020-12-14 热度:200
采用int数组存储每一位,模拟乘法操作,逐位相乘,往前进位。 #include stdio.h#include stdlib.h#include string.h#include time.h/***函数:计算i!的值**/void Cal(int i,int big[50]){ int j,up,res,m; int ge,shi;//乘数的个位,十位 int big1[50],big2[[详细]
-
干货分享:史上最全大数据分析工具
所属栏目:[大数据] 日期:2020-12-14 热度:134
数据可视化工具: 百度ECharts: http://echarts.baidu.com/ Cytoscape: http://www.cytoscape.org/ 图表秀: http://www.tubiaoxiu.com/ 数据观: http://shujuguan.cn/ 微博足迹可视化: http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html BD[详细]
-
数据预处理之归一化
所属栏目:[大数据] 日期:2020-12-14 热度:82
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。归一化是为了加快训练网络的收敛性,可以不进行归一化处理 ? ? ?归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1[详细]
-
E - Sum
所属栏目:[大数据] 日期:2020-12-14 热度:128
传送门 password: nefu 题目如下: 题目大意: 就是给你一个数 n 让你将它拆分成 i份的方案数,并且将这方案数 记为S(i),让求的就是S(i)的和,注意一下数据范围,非常滴大呀。。。 解题思路: 首先我们要将 S(i)求出来,在这里我们就用到可能是高中学的知识[详细]
-
机器学习中的相似性度量
所属栏目:[大数据] 日期:2020-12-14 热度:85
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 本文目[详细]
-
大数四则运算
所属栏目:[大数据] 日期:2020-12-14 热度:80
问题描述:如何实现对大数的加、减、乘、除操作。 分析问题:在处理大数时,使用 long?long 这些基本类型就会发生溢出问题,我们可以使用 c++ 的 STL 中 string 类型存储这些“极限”数据。那么就需要解决两个 string 类型的相加、相减、相乘以及相除。 首先[详细]
-
BloomFilter–大规模数据处理利器(解决空查问题)
所属栏目:[大数据] 日期:2020-12-14 热度:152
BloomFilter– 大规模数据处理利器 Bloom Filter 是由 Bloom 在 1970 年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求 100% 正确的场合。 一 .? 实例 为了说明 存在的重要意义,举一个实例:[详细]
-
如何打造高性能大数据分析平台
所属栏目:[大数据] 日期:2020-12-14 热度:101
大数据分析系统作为一个关键性的系统在各个公司迅速崛起,但是这种海量规模的数据带来了前所未有的性能挑战。同时,如果大数据分析系统无法在第一时间为运营决策提供关键数据,那么这样的大数据分析系统一文不值。本文将从技术无关的角度讨论一些提高性能的[详细]
-
DT(数据处理)时代,地产营销人该知道的新技术
所属栏目:[大数据] 日期:2020-12-14 热度:107
[ 导读 ] 数据咨询,媒介营销,互联网科技 地产营销是门复合型技术活 AlphaGo 打败李世石,马云说 DT 时代,PC 端的网站,移动端的 APP, 人群触媒碎片化, 这样的生活正是我们所经历的。 地产广告的投放渠道越是丰富,营销预算越不断被拆解,各类媒体流量很[详细]
-
Tableau 发布 9.3 版本为数据分析、分享和协作提速
所属栏目:[大数据] 日期:2020-12-14 热度:151
大 数 据 人 报道DT时代应用资讯及动态,爆料剖析行业热点新闻 投稿: Cathy Lu 最新版本提供“始终保持连接”的 Tableau Desktop 、更快捷的数据准备方法、更多的管控和更轻松的管理、Snowflake Computing 连接器 Tableau Software 今日宣布全面推出可通过[详细]
-
大数乘法
所属栏目:[大数据] 日期:2020-12-14 热度:187
public class MyMultiply {/** * @param args */public static void main(String[] args) {String str1 = "23456789009877666555544444";String str2 = "346587436598437594375943875943875";int len1 = str1.length();int len2 = str2.length();char[] s1 =[详细]
-
大数相乘 java
所属栏目:[大数据] 日期:2020-12-14 热度:178
pre name="code" class="java"package bigMultiply;import java.math.BigInteger;/** * 大數相乘 * @author root * */public class MyMultiply1 { /** * @param args */ public static void main(String[] args) { String str1 = "2345678900987766655554444[详细]
-
BloomFilter——大规模数据处理利器
所属栏目:[大数据] 日期:2020-12-14 热度:178
面试面到关于爬虫的一些问题,使用bloomfilter可实现亿级别爬虫url链接去重对比,在此记录一下资料。 文章转自这里 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要[详细]
-
挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中
所属栏目:[大数据] 日期:2020-12-14 热度:145
首先从官网下载DBLP数据集 http://dblp.uni-trier.de/xml/ 只需下载?dblp.xml.gz?解压后得到1G多dblp.xml文件!文件略大。 从原始数据中提取样本: r=open("dblp.xml","r")w=open("dblpExample.xml","w")for i in range(30):print "extract line",ic=r.readl[详细]
-
几个个用于大数据分析的最好工具
所属栏目:[大数据] 日期:2020-12-14 热度:201
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大[详细]
-
大数 a+b 和 a-b
所属栏目:[大数据] 日期:2020-12-14 热度:77
a+b和a-b 时间限制:? 1 Sec?? 内存限制:? 128 MB 提交:? 27?? 解决:? 10 [ 提交][ 状态][ 讨论版] 题目描述 给你两个数a和b,让你计算a和b的和或者差。 输入 有t组数据,每组数据输入一个正数a,接着输入一个符号('+'或者'-'),再输入一个正数b。注意:a和[详细]
-
电信行业的BI应用
所属栏目:[大数据] 日期:2020-12-14 热度:192
截至2015年年底,我国三大运营商的移动用户数达到13.1亿户,4G /3G用户累计达到8.09亿户,再次创下新高。从三大运营商的年度财报来看,在具体业务方面,三大运营商的数据流量业务带来的收入均已超过语音业务,成为拉动收入增长的主要动力。此外,移动互联网[详细]