使用Azure Data Lake Analytics与传统ETL方法的原因
我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.
我认为Data Lake与大数据非常相关,但使用Data Lake技术与SSIS之间的界限在哪里? 在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗?并行?灵活性?未来可扩展吗? 你的想法是什么?是不是用锤子敲打坚果? 21/03编辑 >必须在云端 >我不能做很多基本的事情:循环,更新,在SQL中写日志…… 不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,它是针对非常具体的事情而且仍然没有替代云中的SSIS.你做什么的?我错了吗? 解决方法对我来说,如果数据是高度结构化和关系型的,那么它的正确位置就是关系型数据库.在Azure中,您有以下几种选择:> VM上的SQL Server(IaaS) 对于所有数据库选项,您可以使用群集列存储索引(ADW中的默认值),它可以提供5x到10x之间的大规模压缩. 一年400MB每年总计~143GB,在现代数据仓库术语中通常没有那么多,通常以TB为单位. Azure Data Lake Analytics(ADLA)的用武之地,是在普通SQL中做不到的事情,例如: >将C#的强大功能与SQL相结合,实现强大的查询功能 – 例如here ADLA还提供联合查询,能够“查询其所在的数据”,即将来自数据库的结构化数据和来自湖泊的非结构化数据汇集在一起??. 您的决定似乎与您是否应该使用云有关.如果您需要云的弹性和可扩展功能,那么Azure数据工厂就是将数据从一个地方移动到另一个地方的工具. HTH (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |