从Hive导入数据到ES


大数据方兴未艾,Hive在业界,是大数据的标配了。因此hive数据添加到ES的应用场景还是比较常见的。
学习ES官方的es-hadoop, 有从hive导数据到ES. 实验可行。
hive的版本: hive-1.1.0-cdh6.9.0具体的步骤如下:
step1 将elasticsearch-hadoop-hive-version.jar添加到hivestep2 创建Hive表:step3 添加数据为了避免客户端版本的问题,es-hadoop使用es的restfull接口导入数据,该接口使用的是Http协议。通常使用ES, 首当其冲的问题就是: 如何快速将海量数据导入ES? 由于ES的数据需要建立倒排索引,所以导入数据到ES的瓶颈往往在ES这里。本文记录了将Hive表的数据导入ES的方法。这里背后隐藏了mapreduce,即集群的威力。 这里有个系列博客,讲述如何最大限度的挖掘ES索引数据的性能,立足点是ES。 作者总结有3点:根据应用场景创建mapping, 去除不必要的字段,如_all, _source;
这里是从应用场景下手,以避免存储不必要的信息来提升索引数据的性能。修改es/lucene默认的设置,比如
refresh_interval,
index.number_of_repli 香港云主机cas,
index.merge.scheduler.max_thread_count,
index.translog.interval,
indices.memory.index_buffer_size
index.index_concurrency
等参数。 这里是从集群的角度进行调优, 通常用于大批量导入数据到ES。比如节点只承担数据相关的任务。bulk api的批量值需要实验,找到最佳参数。建议bulk的大小在5M~10M.使用SSD硬盘。索引数据时,副本数设置为0。参考:
http://note4code.com/2016/06/17/hive-%E5%90%91-elasticsearch-%E5%AF%BC%E5%87%BA%E6%95%B0%E6%8D%AE/

相关推荐: 使用SSD固态硬盘的好处有哪些

这篇文章给大家分享的是有关使用SSD固态硬盘的好处有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、整机性能提升1.7倍,读写速度提升5倍,这是什么概念呢?固态硬盘与机械硬盘读写速度对比用i3+SSD和i7 香港云主机+HDD…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 07/23 16:59
下一篇 07/23 17:00

相关推荐