如何在使用scala读取文件后删除hdfs目录中的文件
发布时间:2020-12-16 08:50:00 所属栏目:安全 来源:网络整理
导读:我使用fileStream从Spark(流式上下文)中读取hdfs目录中的文件.如果我的Spark关闭并在一段时间后启动,我想读取目录中的新文件.我不想读取已经由Spark读取和处理的目录中的旧文件.我试图在这里避免重复. val lines = ssc.fileStream[LongWritable,Text,TextInp
我使用fileStream从Spark(流式上下文)中读取hdfs目录中的文件.如果我的Spark关闭并在一段时间后启动,我想读取目录中的新文件.我不想读取已经由Spark读取和处理的目录中的旧文件.我试图在这里避免重复.
val lines = ssc.fileStream[LongWritable,Text,TextInputFormat]("/home/File") 任何代码片段都有帮助吗? 解决方法
您可以使用FileSystem API.以下是命令.
import org.apache.hadoop.fs.FileSystem import org.apache.hadoop.fs.Path val fs=FileSystem.get(sc.hadoopConfiguration) val outPutPath="/abc" if(fs.exists(new Path(outPutPath))) fs.delete(new Path(outPutPath),true) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 在angularJS select指令中设置所选项目
- Angular 2变化检测 – 组件之间的循环依赖性如何解决?
- Unify学习笔记1
- angularjs – 使用ng-repeat {ANGULAR.JS}加载JSON以显示数
- webservice中的序列化时 检测到对象的循环引用
- 将Scala文件放在Play Framework 2.0中的哪个位置,以便将其编
- 初涉bootstrap:bootstrap 插件
- 与Angularjs 1.X中的$watch相比,rxjs observable如何执行?
- 备忘--webservice wsdl ie缓存
- typescript – Angular2 – 应该在模板中访问私有变量吗?