scala – Spark Streaming中的批量大小
发布时间:2020-12-16 18:31:19 所属栏目:安全 来源:网络整理
导读:我是Spark和Spark Streaming的新手.我正在研究Twitter流媒体数据.我的任务涉及独立处理每个推文,比如计算每条推文中的单词数量.根据我的阅读,每个输入批处理在Spark Streaming中的RDD上形成.因此,如果我给出2秒的批处理间隔,则新的RDD包含所有推文两秒钟,并
我是Spark和Spark Streaming的新手.我正在研究Twitter流媒体数据.我的任务涉及独立处理每个推文,比如计算每条推文中的单词数量.根据我的阅读,每个输入批处理在Spark Streaming中的RDD上形成.因此,如果我给出2秒的批处理间隔,则新的RDD包含所有推文两秒钟,并且所应用的任何转换将应用于整个两秒数据,并且在该两秒内无法处理单个推文.我的理解是否正确?或者每条推文形成一个新的RDD?我有点困惑……
解决方法
在一个批处理中,您有一个RDD,其中包含2秒间隔内的所有状态.然后,您可以单独处理这些状态.这是一个简短的例子:
JavaDStream<Status> inputDStream = TwitterUtils.createStream(ctx,new OAuthAuthorization(builder.build()),filters); inputDStream.foreach(new Function2<JavaRDD<Status>,Time,Void>(){ @Override public Void call(JavaRDD<Status> status,Time time) throws Exception { List<Status> statuses=status.collect(); for(Status st:statuses){ System.out.println("STATUS:"+st.getText()+" user:"+st.getUser().getId()); //Process and store status somewhere } return null; }}); ctx.start(); ctx.awaitTermination(); } 我希望我没有误解你的问题. 卓然 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |