Hive中的有几种排序操作

这篇文章主要为大家展示了“Hive中的有几种排序操作”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Hive中的有几种排序操作”这篇文章吧。Hive 中的四种排序排序操作是一个比较常见的操作，尤其是在数据分析的时候，我们往往需要对数据进行排序，hive 中和排序相关的有四个关键字，今天我们就看一下，它们都是什么作用。数据准备下面我们有一份温度数据,tab 分割建表加载数据1. order by(全局排序)order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个reducer，会导致当输入规模较大时，消耗较长的计算时间。降序：desc升序：asc 不需要指定，默认是升序需要注意的是它受hive.mapred.mode的影响，在严格模式下，必须使用limit 对排序的数据量进行限制，因为数据量很大只有一个reducer的话，会出现OOM 或者运行时间超长的情况，所以严格模式下，不适用limit 则会报错，更多请参考Hive的严格模式和本地模式。接下来我们看一下order by的排序结果select * from ods_temperature order by year;2. sort by(分区内排序)不是全局排序，其在数据进入reducer前完成排序，也就是说它会在数据进入reduce之前为每个reducer都产生一个排序后的文件。因此，如果用sort by进行排序，并且设置mapreduce.job.reduces>1，则sort by只保证每个reducer的输出有序，不保证全局有序。它不受Hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。发现上面的输出好像看不出来啥，只能看到不是有序的，哈哈，那我们换一种方法，将数据输出到文件，因为我们设置了reduce数是3，那应该会有三个文件输出。可以看出这下就清楚多了，我们看到一个分区内的年份并不同意，那个年份的数据都有。sort by 和order by 的执行效率首先我们看一个现象，一般情况下我们认为sort by 应该是比 order by 快的，因为 order by 只能使用一个reducer,进行全部排序，但是当数据量比较小的时候就不一定了，因为reducer 的启动耗时可能远远数据处理的时间长，就像下面的例子order by 是比sort by快的。sort by 中的limt可以在sort by 用limit子句减少数据量，使用limit n 后，传输到reduce端的数据记录数就减少到 n *(map个数),也就是说我们在sort by 中使用limit 限制的实际上是每个reducer 中的数量，然后再根据sort by的排序字段进行order by，最后返回n 条数据给客户端，也就是说你在sort by 用limit子句，最后还是会使用order by 进行最后的排序。order by 中使用limit 是对排序好的结果文件去limit 然后交给reducer,可以看到sort by 中limit 子句会减少参与排序的数据量，而order by 中的不行，只会限制返回客户端数据量的多少。从上面的执行效率，我们看到sort by limit 几乎是 order by limit 的两倍了，大概猜出来应该是多了某个环节。接下来我们分别看一下order by limit 和 sort by limit 的执行计划从上面截图我圈出来的地方可以看到sort by limit 比 order by limit 多出了一个stage(order limit)sort by limit 实际上执行了两次limit ,减少了参与排序的数据量3. distribute by(数据分发)distribute by是控制在map端如何拆分数据给reduce端的。类似于MapReduce中分区p 香港云主机artationer对数据进行分区hive会根据distribute by后面列，将数据分发给对应的reducer，默认是采用hash算法+取余数的方式。sort by为每个reduce产生一个排序文件，在有些情况下，你需要控制某写特定的行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。例如上面的sort by 的例子中，我们发现不同年份的数据并不在一个文件中，也就说不在同一个reducer 中，接下来我们看一下如何将相同的年份输出在一起，然后按照温度升序排序首先我们尝试一下没有distribute by 的SQL的实现发现结果并没有把相同年份的数据分配在一起,接下来我们使用一下distribute by这下我们看到相同年份的都放在了一下，可以看出2013 和 2016 放在了一起，但是没有一定顺序，这个时候我们可以对 distribute by 字段再进行一下排序4. cluster bycluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。当分区字段和排序字段相同cluster by可以简化distribute by+sort by 的SQL 写法，也就是说当distribute by和sort by 字段相同时，可以使用cluster by 代替distribute by和sort by我们看到上面两种SQL写法的输出结果是一样的，这也就证明了我们的说法，当distribute by和sort by 字段相同时，可以使用cluster by 代替distribute by和sort by当你尝试给cluster by 指定排序方向的时候，你就会得到如下错误。order by 是全局排序，可能性能会比较差;sort by分区内有序，往往配合distribute by来确定该分区都有那些数据;distribute by 确定了数据分发的规则，满足相同条件的数据被分发到一个reducer;cluster by 当distribute by和sort by 字段相同时，可以使用cluster by 代替distribute by和sort by,但是cluster by默认是升序，不能指定排序方向;sort by limit 相当于每个reduce 的数据limit 之后，进行order by 然后再limit ;以上是“Hive中的有几种排序操作”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注开发云行业资讯频道！

相关推荐: SQL Server如何将普通表转成分区表

本篇内容主要讲解“SQL Server如何将普通表转成分区表”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“SQL Server如何将普通表转成分区表”吧! 在设计数据库时，经常没有考虑到表分区的问题，往往在数据表承…