Spark2.x中如何用源码剖析SortShuffleWriter具体实现

1524990177 • 08/15 09:51 • Linux技术 • 阅读 100

这篇文章给大家介绍Spark2.x中如何用源码剖析SortShuffleWriter具体实现，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。一、概述这里讲解Spark Shuffle Write的第三种实现SortShuffleWriter，在ShuffleWrite阶段，如果不满足UnsafeShuffleWriter、BypassMergeSortShuffleWriter两种条件，最后代码执行SortShuffleWriter，这里来看看他的具体实现：
二、具体实现
这里直接看Write()函数，代码如下：
其中Externa 香港云主机lSorter是SortShuffleWriter一个排序类，这个类用于对一些(K, V)类型的key-value对进行排序，如果需要就进行merge，生的结果是一些(K, C)类型的key-combiner对。combiner就是对同样key的value进行合并的结果。它首先使用一个Partitioner来把key分到不同的partition，然后，如果有必要的话，就把每个partition内部的key按照一个特定的Comparator来进行排序。它可以输出只一个分区了的文件，其中不同的partition位于这个文件的不同区域(在字节层面上每个分区是连续的)，这样就适用于shuffle时对数据的抓取。2.这里接着看上面代码第14行的 sorter.insertAll(records)函数，里面其实干了很多事情，代码如下：3.下面继续跟踪maybeSpillCollection()函数，如何对内存数据溢写的，代码如下：4.上面涉及到溢写判断函数maybeSpill，我们看下他是如何进行判断的，代码如下：里面还有更深层次的代码，这里就不再跟踪了，只要是了解了整个大体思路即可，有兴趣的自己去跟踪看下即可。为方便大家理解，下面给大家画了下SorteShuffleWriter执行的流程图，BypassMergeSortShuffleWriter和UnsafeShuffleWriter的处理流程与这个流程基本一致，只是具体的实现稍有差异，水平有限,仅供参考：关于Spark2.x中如何用源码剖析SortShuffleWriter具体实现就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

相关推荐: 电脑鼠标滚轮不能使用要如何解决

这篇“电脑鼠标滚轮不能使用要如何解决”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面香港云主机我们一起来看看这篇“电脑鼠标滚轮不能使用要如何解决”文章吧。1.调出运…