pandas – 用于数据处理和作业调度的Apache Airflow或Apache Bea
发布时间:2020-12-14 04:34:46 所属栏目:大数据 来源:网络整理
导读:我正在尝试提供有用的信息,但我远非数据工程师. 我目前正在使用python库pandas对我的数据执行一系列转换,这些数据有很多输入(目前是CSV和excel文件).输出是几个excel文件.我希望能够通过并行计算执行计划的受监视批处理作业(我的意思是不像我正在做的那样使
我正在尝试提供有用的信息,但我远非数据工程师.
我目前正在使用python库pandas对我的数据执行一系列转换,这些数据有很多输入(目前是CSV和excel文件).输出是几个excel文件.我希望能够通过并行计算执行计划的受监视批处理作业(我的意思是不像我正在做的那样使用pandas),每月一次. 我真的不知道Beam或Airflow,我很快就通读了文档,似乎两者都可以实现.我应该使用哪一个? 解决方法
Apache Airflow不是数据处理引擎.
Airflow is a platform to programmatically author,schedule,and monitor workflows. Cloud Dataflow是Google Cloud上的一项完全托管服务,可用于数据处理.您可以编写数据流代码,然后使用气流来计划和监视数据流作业.如果失败,Airflow还允许您重试作业(重试次数可配置).如果您希望在数据流管道出现故障时在Slack或Email上发送警报,也可以在Airfow中进行配置. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |