加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 使用oozie工作流启动spark程序

发布时间:2020-12-16 09:26:03 所属栏目:安全 来源:网络整理
导读:我正在使用一个使用spark包的scala程序. 目前我使用来自网关的bash命令运行程序: / homes / spark / bin / spark-submit –master yarn-cluster –class“com.xxx.yyy.zzz”–driver-java-options“-Dyyy.num = 5”a.jar arg1 arg2 我想开始使用oozie来运行
我正在使用一个使用spark包的scala程序.
目前我使用来自网关的bash命令运行程序:
/ homes / spark / bin / spark-submit –master yarn-cluster –class“com.xxx.yyy.zzz”–driver-java-options“-Dyyy.num = 5”a.jar arg1 arg2

我想开始使用oozie来运行这份工作.我有一些挫折:

我应该在哪里放置spark-submit可执行文件?在hfs?
如何定义火花动作?应该在哪里出现–driver-java-options?
oozie动作应该如何?它是否与here出现的相似?

解决方法

如果你有足够新的oozie版本,你可以使用oozie的spark任务:

https://github.com/apache/oozie/blob/master/client/src/main/resources/spark-action-0.1.xsd

否则你需要执行一个调用spark的java任务.就像是:

<java>
        <main-class>org.apache.spark.deploy.SparkSubmit</main-class>

        <arg>--class</arg>
        <arg>${spark_main_class}</arg> -> this is the class com.xxx.yyy.zzz

        <arg>--deploy-mode</arg>
        <arg>cluster</arg>

        <arg>--master</arg>
        <arg>yarn</arg>

        <arg>--queue</arg>
        <arg>${queue_name}</arg> -> depends on your oozie config

        <arg>--num-executors</arg>
        <arg>${spark_num_executors}</arg>

        <arg>--executor-cores</arg>
        <arg>${spark_executor_cores}</arg>

        <arg>${spark_app_file}</arg> -> jar that contains your spark job,written in scala

        <arg>${input}</arg> -> some arg 
        <arg>${output}</arg>-> some other arg

        <file>${spark_app_file}</file>

        <file>${name_node}/user/spark/share/lib/spark-assembly.jar</file>
    </java>

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读