加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

pandas – 用于数据处理和作业调度的Apache Airflow或Apache Bea

发布时间:2020-12-14 04:34:46 所属栏目:大数据 来源:网络整理
导读:我正在尝试提供有用的信息,但我远非数据工程师. 我目前正在使用python库pandas对我的数据执行一系列转换,这些数据有很多输入(目前是CSV和excel文件).输出是几个excel文件.我希望能够通过并行计算执行计划的受监视批处理作业(我的意思是不像我正在做的那样使
我正在尝试提供有用的信息,但我远非数据工程师.

我目前正在使用python库pandas对我的数据执行一系列转换,这些数据有很多输入(目前是CSV和excel文件).输出是几个excel文件.我希望能够通过并行计算执行计划的受监视批处理作业(我的意思是不像我正在做的那样使用pandas),每月一次.

我真的不知道Beam或Airflow,我很快就通读了文档,似乎两者都可以实现.我应该使用哪一个?

解决方法

Apache Airflow不是数据处理引擎.

Airflow is a platform to programmatically author,schedule,and monitor workflows.

Cloud Dataflow是Google Cloud上的一项完全托管服务,可用于数据处理.您可以编写数据流代码,然后使用气流来计划和监视数据流作业.如果失败,Airflow还允许您重试作业(重试次数可配置).如果您希望在数据流管道出现故障时在Slack或Email上发送警报,也可以在Airfow中进行配置.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读