如何在Windows机器上为Spark应用程序设置集群环境?
我一直在使用spark独立非集群模式在pyspark中开发.这些天,我想探讨更多关于spark的集群模式.我在互联网上搜索,发现我可能需要一个集群管理器来使用Apache Mesos或Spark Standalone在不同的机器上运行集群.但是,我无法轻易找到图片的细节.
我应该如何从系统设计的角度进行设置,以便在多个Windows机器(或多个Windows vms)中运行spark集群. 解决方法
您可能希望探索(从最简单的)Spark Standalone,通过Hadoop YARN到Apache Mesos或DC / OS.见
Cluster Mode Overview.
我建议首先使用Spark Standalone(作为提交Spark应用程序的最简单选项). Spark Standalone包含在任何Spark安装中,并且可以在Windows上正常运行.问题是没有脚本可以启动和停止Windows操作系统的独立Master和Workers(也称为奴隶).你只需要自己“编码”它们. 使用以下命令在Windows上启动独立主服务器: // terminal 1 binspark-class org.apache.spark.deploy.master.Master 请注意,在启动独立主服务器后,您没有输入,但不要担心,请转到http://localhost:8080/以查看Spark Standalone群集的Web UI. 在单独的终端中启动独立Worker的实例. // terminal 2 binspark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077 使用单工作Spark Standalone集群,您应该能够按如下方式提交Spark应用程序: spark-submit --master spark://localhost:7077 ... 阅读Spark官方文档中的Spark Standalone Mode. 正如我刚刚发现Mesos不是一个可选的System Requirements:
但是,您可以使用VirtualBox或类似工具使用虚拟机运行任何群集.至少DC / OS有dcos-vagrant,这应该很容易:
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- Windows – 防止崩溃“正在检查解决方案……”和“重新启动
- windows – 如何在git bash中设置正确的本地时区?
- WCF服务:状态200,sc-win32状态为64
- windows github工具 – 使用分支取消发布还是删除?
- windows-7 – 使用libvirt管理的kvm 64主机上win7 64 guest
- windows中为php安装mongodb与memcache
- windows-server-2008 – 是否有预部署Windows工作站验证程序
- 永久更改Windows中的环境变量
- 修改远程最大允许连接数
- winapi – 有没有办法以编程方式在Windows上找到芯片组的北
- windows-phone-8 – 在模拟器中浏览Windows Phon
- 在Windows Azure虚拟机VM上安装FTP应用程序FileZ
- group-policy – 通过GPO设置二进制注册表设置
- 将Windows网络配置文件从“DomainAuthenticated”
- 如何在Windows上的DNS中找到LDAP服务器?
- windows-server-2003 – 我可以从命令行在另一台
- Qt App适用于MacOSX,Windows上的访问冲突
- 高收益的笨办法:暴破在Windows提权中的应用
- .net – Windows / Linux之间的Unison同步在传输
- 堆栈如何在Windows和Linux上运行?