大数据作为当今热门的一个行业,想要学习好大数据,要了解的东西有很多,而shuffle作为MapReduce框架中最关键的一个流程,是很重要的。所以今天我们就来了解一下关于shuffle过程详解,下面一起来看看吧。
Map阶段处理的数据如何传递给reduce阶段,shuffle在其中起到了很关键的作用,shuffle分布在MapReduce的map阶段和reduce阶段。
Map的shuffle过程:主要包括输出、排序、溢写、合并等步骤,如下图所示:
1、collect:每个Maptask都将数据输出到该Maptask对应的环形缓冲区Kvbuffer中,使用环形数据结构是为了更有效地使用内存空间,在内存中放置尽可能多的数据。
2、Sort:在对数据进行合并的同时,会进行排序操作,由于 MapTask 阶段已经对 数据进行了局部的排序,ReduceTask 只需保证 Copy 的数据的最终整体有效性即可。
3、Spill:当内存中的数据量达到了一定的阀值的时候,会生成一个溢写文件,将环形缓冲区中的原始数据写入该文件,按照上一步排序的元数据,溢写时对原始数据进行排序。
由于一个Maptask处理的数据可能需要多次溢写才能写完,所以每个Maptask可能生成多个溢写文件。最终剩在环形缓冲区中的数据达不到阈值条件,会强制刷出生成一个溢写文件。
4、Merge:在 ReduceTask 远程复制数据的同时,会在后台开启两个线程对内存到 本地的数据文件进行合并操作。
5、Copy:Reduce 任务通过HTTP向各个Map任务拖取它所需要的数据。每个节点都会启动一个常驻的HTTP server,其中一项服务就是响应Reduce拖取Map数据。当有MapOutput的HTTP请求过来的时候,HTTP server就读取相应的Map输出文件中对应这个Reduce部分的数据通过网络流输出给Reduce。
6、排序合并sort-merge:每个分区的数据从多个maptask拖取过来后进行归并排序,合并成一个文件,最后各个分区的文件通过分区组件的逻辑,划分到不同的reducetask。
以上就是关于shuffle过程的详解了,不知道大家是否有了一定的了解,大数据中有很多的框架结构,一些重要的点是需要各位了解透彻的。如果想了解更多详情,请点击成都加米谷大数据官网吧!
相关阅读
猜您喜欢
- 手机关了定位怎么查位置吗(对方手机关机怎样定位追踪)
- 三星Note 7召回费用至少为53亿美元
- 电脑查苹果手机ID定位(怎么寻找苹果手机位置)
- 铃木怎么样(长安铃木好不好)
- 三星希望在一个月内将服务点50% 3,000
- 手机APP教程篇:百词斩怎么海报打卡
- 一个月瘦多少(一个月瘦30斤的减肥方法)
- 航空公司在Galaxy Note 7惨败后为过热的手机添加了 “防火袋”
- 怎么查老公的微信聊天记录呢(怎么查老公的微信聊天记录)
- 怎么查oppo手机有没有被定位(怎么找到对方的手机位置)
- Zopo Color C3经济型智能手机在印度推出,价格为9,599卢比
- 免费查老婆手机位置的app(怎么查对方的手机位置)
- 可以查宾馆记录吗(如何查询酒店入住信息)
- 三星希望在一个月内将服务点50% 3,000
- 怎么打字啊(如何学会打字)
- 特价每月12GB三个只需£8
图文推荐
热门文章
-
shuffle什么意思(shuffle为什么是随机)
通信 2022-05-27 12:04:22 -
航空公司在Galaxy Note 7惨败后为过热的手机添加了 “防火袋”
数码 2022-05-27 11:35:07 -
三星希望在一个月内将服务点50% 3,000
评论 2022-05-27 11:35:07 -
声誉风险大于三星召回的成本影响: 惠誉
原创 2022-05-27 11:35:07 -
三星Note 7召回费用至少为53亿美元
手机 2022-05-27 11:35:06 -
Tinder的 “智能照片” 将把您最好的照片放在首位
通信 2022-05-27 11:35:06