积累（五-大数据处理）

发布时间：2020-12-14 02:59:36 所属栏目：大数据来源：网络整理

导读：问：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url。答：单个文件的大小达到5G*64=320G，所以要拆成小的部分。 1.遍历文件a，对每一个url计算key=hash(url)%1000。相同key的url存放在一个文件里。这样我

问：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url。
答：单个文件的大小达到5G*64=320G，所以要拆成小的部分。
1.遍历文件a，对每一个url计算key=hash(url)%1000。相同key的url存放在一个文件里。这样我们得到了1000个文件（a0、a1、...、a999）。
2.对b采用同样的方法。得到（b0、b1、...、b999）。
3.在每对(ai,bi)中找共同的url。注意这样处理不会有遗漏。
下面再解决小文件中找共同url的方法。
可使用STL中的set<string> m_set，将第一个文件中每个url都放进去。再针对第二个文件的每个url作 m_set.find(url)!=m_set.end()的判断。

问：N个降序有序队列，找到最大的K个数。（百度2015秋招真题）答：解决方法堆排序： 1. 选取每个队列中第一个元素建立大根堆，堆中元素个数为队列的个数N； 2. 删除最大堆堆顶，保存到所求的集合中，然后向最大堆插入/刚才删除元素所在队列的/下一元素。 3. 重复第1,2个步骤，直到求得最大的K个数。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!