spark中如何使用groupByKey进行分组排序

今天小编给大家分享一下spark中如何使用groupByKey进行分组排序的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。任务需求：已知RDD[(query:String, item_id:String, imp:Int, clk:Int)]，要求找到每个query对应的点击最多的前2个item_id，即：按照query分组，并按照clk降序排序，每组取前两个。例如：（连衣裙，1234, 22, 13）（牛仔裤，2768, 34, 7）（连衣裙，1673，45, 9）（衬衣，3468， 67, 12）（牛仔裤，2754, 68， 20）（连衣裙，1976，93, 29）希望得到：（连衣裙，1976，93, 29）（连衣裙，1234, 22, 13）（牛仔裤，2754, 68， 20）（牛仔裤，2768, 34, 7）（衬衣，3468， 67, 12）先看一个错误的版本：我们把query作为key，其余放到一起，groupByKey后（map之前），类型为：RDD[(String, Iterable[(String, Int, Int)])]，根据query分组再map，line._2.toArray把Iterable转为Array，sortBy(_._3)是按最后一个Int即clk排序，(Ordering[Int].reverse)表示从大到小（sortBy默认从小到大，注意这里的sortBy是Array的成员函数而不是rdd的sortBy，用法比较不同），take(2)是取前2个，然后返回（query, item_id）。跑一下上面的过程。返回：上面3行是直接打印跟预期稍有差别，同一个key下的top两个元素是作为一个整体，但已经很接近目标，如果希望拆分，免费云主机域名需要使用flatMap:为什么呢？GroupByKey后，类型为RDD[(String, Iterable[(String, Int, Int)])]，如果用map，那每一个key对应的一个Iterable变量，相当于一条数据，map后的结果自然还是一条。但flatMap，相当于map+flat操作，这才是我们真正的需要的形式。任务进阶：要求找到每个query对应的点击最多的前2个item_id，当点击一样时，选曝光最少的，即：按照query分组，并优先按照clk降序排序，其次按照imp升序排序，每组取前两个。例如：（连衣裙，1234, 22, 13）（牛仔裤，2768, 34, 7）（连衣裙，1673，45, 9）（衬衣，3468， 67, 12）（牛仔裤，2754, 68， 20）（连衣裙，1976，93, 29）（牛仔裤，1232, 20， 7）希望得到：（连衣裙，1976，93, 29）（连衣裙，1234, 22, 13）（牛仔裤，2754, 68， 20）（牛仔裤，1232, 20, 7）（衬衣，2768, 34, 7）注意，上面样本中牛仔裤有两个样本的点击都是7，但标红的样本曝光数是更小，所以应该入选top2，直接上代码吧：sortBy可以根据需要增加排序维度，参数按优先级排列，这个在日常使用较多。以上就是“spark中如何使用groupByKey进行分组排序”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注百云主机行业资讯频道。

相关推荐: Java中的base64编码器怎么实现

本篇内容主要讲解“Java中的base64编码器怎么实现”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Java中的base64编码器怎么实现”吧!什么是Base64编码呢？在回答这个问题之前，我们需要了解一下计算机…