加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【CSDN在线培训Q/A】解析大数据分析服务

发布时间:2020-12-14 03:29:20 所属栏目:大数据 来源:网络整理
导读:7月10日,亚马逊AWS 产品拓展经理庄富任在主题为“解析大数据分析服务”的在线培训中,为我们讲述了如何利用AWS Kinesis 实现实时数据流采集和处理,并配合AWS Hadoop EMR集群分析非结构化数据,以及数据仓库Redshift 进行高效结构化数据分析,并结合客户案例为

7月10日,亚马逊AWS 产品拓展经理庄富任在主题为“解析大数据分析服务”的在线培训中,为我们讲述了如何利用AWS Kinesis 实现实时数据流采集和处理,并配合AWS Hadoop EMR集群分析非结构化数据,以及数据仓库Redshift 进行高效结构化数据分析,并结合客户案例为例说明这些服务的实际应用场景。


为了帮助大家更好的复习本次培训的相关内容,了解AWS云平台数据分析服务的使用技巧及相关资讯,CSDN整理了本次培训最后的QA如下:

Q1:亚马逊推荐将最佳实践存放在S3,这会不会失去数据本地性,例如以前的服务器数据和计算是在一起,现在数据与计算分开是不是意味着处理数据的时候会有延迟?


答:对于AWS来讲,S3与EC2、EMR和Glacier都是在同一个可用区,那么每一个服务都是用高速网络连接在一起,用户几乎感觉不到在做I /O或者是数据的吞吐量的瓶颈,所以这上面不会存在任何的瓶颈。


Q2:如何将业务数据导入到AWS云上?


答:这是用户常问的一个问题,任何一个处理大数据的人都会遇到这个问题,无论用户是在云计算上还是自己购买存储设备,都会遇到数据载入的问题。

对于AWS云来讲,亚马逊提供很多不同的工具,第一个最简单的就是用互联网,只要用户的互联网出口带宽是足够的,因为不同公司的出口带宽也都不同,但只要出口带宽能保证,就能进入互联网,就不会有瓶颈。另外,S3提供了一个切片工具,比如一个文件有100M,切片工具可以将其切成10个小文件,上传到互联网,然后S3会自动将文件进行聚合,这是其中的一个方式。第二个方式是专线传输,如果用户的数据很大,达到PB级别的话,就可以通过专线传输到AWS云。


Q3:如何保证数据的安全性?数据保密性达到什么程度?


答:从分析层面来看,第一,数据上传到AWS云上是一个网络的传输过程,其中当然有一些加密的工具,用户可以将数据进行加密来保存,数据的传输是一个加密的过程,只要数据传输到AWS云,亚马逊当然也提供一些在存储方面的加密工具,用户可以根据需要进行加密。

重点是只要用户的数据上传到AWS,那么亚马逊都不会去看或者是移动用户的数据,总之亚马逊能够保证不移动或是查看用户的数据。


Q4:PB级的数据处理是否推荐MySQL?


答:如果用户知道MPP数据的发展或是关系型数据库到所谓的以列存储的MPP数据仓库的演进,都应该知道这些都是为了取代关系型数据库的,所以如果说是PB级的数据分析,我认为并不那么适合用MySQL。


Q5:RedShift是否可以达到像EMR水平扩展的性能?


答:可以的,EMR没有限制说用户需要几台机器,你要100台或者1000台都没有问题,因为对于Hadopp这个框架来讲就可以达到这么多,对于Redshift数据仓库来讲,目前是可以达到100个节点,亚马逊有一个不断的演进,目前PB级适用于大部分的实例,扩充到100个或200个节点的时候,亚马逊会不断去做一个产品的评估,事实上MPP级数据,数据仓库就足够用户使用。


如您需要了解AWS最新资讯或是技术文档可访问AWS中文技术社区;如您有更多的疑问请在AWS技术论坛提出,稍后会有专家进行答疑。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读