加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – flink reduceGroup中的迭代器行为

发布时间:2020-12-16 18:51:15 所属栏目:安全 来源:网络整理
导读:我正在创建一个应该处理大量数据的系统,我需要了解reduce group运算符的工作原理 我有一个数据集,我在其中应用groupby,然后是reduceGroup 传递给reduceGroup函数的迭代器如何表现? 它是一个懒惰的迭代器,在请求它们时加载数据,还是一个在创建内存时准备内存
我正在创建一个应该处理大量数据的系统,我需要了解reduce group运算符的工作原理

我有一个数据集,我在其中应用groupby,然后是reduceGroup
传递给reduceGroup函数的迭代器如何表现?
它是一个懒惰的迭代器,在请求它们时加载数据,还是一个在创建内存时准备内存中所有数据的渴望它?

我在flink 0.9 milestone1中使用scala api

解决方法

Flink使用排序运算符为groupReduce执行group-by.排序运算符接收用于排序的特定内存预算.只要数据符合此预算,排序就会发生在内存中.否则,排序将成为外部合并排序并溢出到磁盘. Flink读取已排序的数据流并“在运行中”应用groupReduce函数.在应用函数之前,组中的数据未完全在内存中读取.因此,如果用户功能本身没有实现组记录,则可以处理非常大的组.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读