scala – 使用sc.textfile时是驱动程序还是工作者读取文本文件?
发布时间:2020-12-16 10:06:13 所属栏目:安全 来源:网络整理
导读:我想知道如何在Spark中使用sc.textfile.我的猜测是驱动程序一次读取文件的一部分,并将读取的文本分发给工作人员进行处理.或者是工作人员在没有驱动程序参与的情况下直接从文件中读取文本? 解决方法 驱动程序查看文件元数据 – 检查它是否存在,检查目录中的
我想知道如何在Spark中使用sc.textfile.我的猜测是驱动程序一次读取文件的一部分,并将读取的文本分发给工作人员进行处理.或者是工作人员在没有驱动程序参与的情况下直接从文件中读取文本?
解决方法
驱动程序查看文件元数据 – 检查它是否存在,检查目录中的文件是否是目录,并检查它们的大小.然后它将任务发送给工作人员,他们实际读取文件内容.通信本质上是“你读取这个文件,从这个偏移开始,这个长度.”
HDFS将大文件拆分成块,并且火花将(通常/经常)根据块拆分任务,因此跳过该偏移的过程将是有效的. 其他文件系统往往操作类似,但并非总是如此.如果编解码器不可拆分,压缩也可能会混乱此过程. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |