Hive中的分区和桶是什么意思


本篇内容主要讲解“ Hive中的分区和桶是什么意思”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“ Hive中的分区和桶是什么意思”吧!hive中的分区和桶
Hive 把表组织成“分区” Partition。 这是一种根据“分区列”(Partition column,如日期)的值对表进行粗略划分的机制,使用分区可以加快数据分片(Slice)的查询速度
表和分区可以进一步分为“桶”(Bucket)它会为数据提供额外的结果以获得更高效率的查询处理,例如,通过根据用户ID来划分桶,我们可以早所有用户集合的随机样本上快速计算基于用户的查询。

下面以日志文件进行考虑,日志文件中的每条记录包含一个分区,我们一般根据日期来进行分区,同一天的记录会放在相同的区中。 分区是在创建表的时候用partition by 子句定义的,该子句需要定义列的列表 桶的话,可以把该表分成规定的几个部分,每个部分是根据制定的列取模来决定的 下面我们就是根据ts来对4取模决定桶的
如下:

在我们把数据加载到分区表的时候,要显示的指定分区值,比如我们在目录下面有一个文件 20140418GB.txt 里面有内容

我们将该数据加载到表logs中

现在来查看HDFS结构和里面的数据我们在eclipse中查看
但是奇怪的是,进去里面的目录我们可以看到这里并没有出现分桶,然后我们进行数据查找,以分桶的形式

结果如下
这个结果包括了所有三个文件中,符合要求的记录我曾单独的使用过分桶,实验显示,如果单独分桶那么将会看见所分桶的各片,但是分区和分桶一起来的话,却只能看见分区的目录
我们是不是可以这样理解,当分区和分桶一起来时,分好的区是主流,我们可以看到分区中的目录,但是分的桶,我们不再看见,结构存在,只是不显示而我们进行查找时,就可以用上了
到此,相信大家对“ Hive中的分区和桶是什么意思”有了更深的了解,不妨来实际操作一番吧!这里是开发云网站,更多相关内容可以进入相关频道进行查询开发云主机域名,关注我们,继续学习!

相关推荐: 虚拟主机如何实现301重定向

这期内容当中小编将会给大家带来有关虚拟主机如何实现301重定向,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。虚拟主机做301重定向非常便捷,在控制面板系统,我们找到“301转向”,进入后,会提示如何设置301重定向,以及建议…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 05/19 21:59
下一篇 05/19 21:59

相关推荐