加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – spark streaming fileStream

发布时间:2020-12-16 09:27:21 所属栏目:安全 来源:网络整理
导读:我正在使用火花流编程但是在scala上遇到了一些问题.我正在尝试使用StreamingContext.fileStream函数 这个函数的定义是这样的: def fileStream[K,V,F : InputFormat[K,V]](directory: String)(implicit arg0: ClassManifest[K],arg1: ClassManifest[V],arg2:
我正在使用火花流编程但是在scala上遇到了一些问题.我正在尝试使用StreamingContext.fileStream函数

这个函数的定义是这样的:

def fileStream[K,V,F <: InputFormat[K,V]](directory: String)(implicit arg0: ClassManifest[K],arg1: ClassManifest[V],arg2: ClassManifest[F]): DStream[(K,V)]

创建一个输入流,监视与Hadoop兼容的文件系统以获取新文件,并使用给定的键值类型和输入格式读取它们.文件名以.开头.被忽略了.
?
用于读取HDFS文件的密钥类型
V
读取HDFS文件的值类型
F
读取HDFS文件的输入格式
目录
用于监视新文件的HDFS目录

我不知道如何传递Key和Value的类型.
火花流中的我的代码:

val ssc = new StreamingContext(args(0),"StreamingReceiver",Seconds(1),System.getenv("SPARK_HOME"),Seq("/home/mesos/StreamingReceiver.jar"))

// Create a NetworkInputDStream on target ip:port and count the
val lines = ssc.fileStream("/home/sequenceFile")

用于编写hadoop文件的Java代码:

public class MyDriver {

private static final String[] DATA = { "One,two,buckle my shoe","Three,four,shut the door","Five,six,pick up sticks","Seven,eight,lay them straight","Nine,ten,a big fat hen" };

public static void main(String[] args) throws IOException {
    String uri = args[0];
    Configuration conf = new Configuration();
    FileSystem fs = FileSystem.get(URI.create(uri),conf);
    Path path = new Path(uri);
    IntWritable key = new IntWritable();
    Text value = new Text();
    SequenceFile.Writer writer = null;
    try {
        writer = SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());
        for (int i = 0; i < 100; i++) {
            key.set(100 - i);
            value.set(DATA[i % DATA.length]);
            System.out.printf("[%s]t%st%sn",writer.getLength(),key,value);
            writer.append(key,value);
        }
    } finally {
        IOUtils.closeStream(writer);
    }
}

}

解决方法

如果你想使用fileStream,你将不得不在调用它时为它提供所有3种类型的参数.在调用它之前,您需要知道Key,Value和InputFormat类型是什么.如果您的类型是LongWritable,Text和TextInputFormat,您可以像这样调用fileStream:

val lines = ssc.fileStream[LongWritable,Text,TextInputFormat]("/home/sequenceFile")

如果这三种类型恰好是您的类型,那么您可能希望使用textFileStream,因为它不需要任何类型的params并使用我提到的那3种类型委托给fileStream.使用它看起来像这样:

val lines = ssc.textFileStream("/home/sequenceFile")

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读