加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

pyspark依赖第三方库

发布时间:2020-12-14 01:04:32 所属栏目:百科 来源:网络整理
导读:问题描述 想在集群中使用第三方库,不知道怎么上传相关的依赖关系。 参考办法 开始找到相关解决方法主要有两种: 一是通过virtualenv为每个程序创建互不干扰的虚拟环境来运行; 二是通过anaconda进行安装包和环境的管理。 相关教程: pyspark依赖部署 英文博

问题描述

想在集群中使用第三方库,不知道怎么上传相关的依赖关系。


参考办法

开始找到相关解决方法主要有两种:

  • 一是通过virtualenv为每个程序创建互不干扰的虚拟环境来运行;
  • 二是通过anaconda进行安装包和环境的管理。
相关教程:
  • pyspark依赖部署
  • 英文博客
但是上面的教程解决的都是driver(master)的环境问题,并没有解决worker(executer,slaver)的问题。而且对于实际情况,并不能保证打包环境和slave端的运行环境一致。

后来参考了Yarn的Pypark如何与Redis交互。

实际操作

情况介绍:服务器A中安装了需要依赖的package,服务器B中有相关代码,且通过
sc.addPath(path_to_hdfs)
添加了路径,但是执行后报错,错误描述大概是找不到 dict.txt文件,具体描述见 这里。
尝试指定了dict路径后依然出错,后来将代码放到了服务器A上就可以正常运行了,貌似PYSPARK_PYTHON就解决了问题?用zip的方式jieba需要pkg_resources来解决上述出现的那个错误~但服务器B上也没有pkg_resources


就酱。。。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读