基于Docker的大数据开发环境怎么实现


这篇文章主要讲解了“基于Docker的大数据开发环境怎么实现”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“基于Docker的大数据开发环境怎么实现”吧!大数据开发对运行环境和数据的依赖比较重,比如开发Spark应用,往往会依赖Hive,但本地开发环境是没有Hive的,所以需要在本地和服务器之间拷贝代码,效率不高,我认为用Docker在本地搭建一套单机的大数据集群,然后将代码拷贝到容器里进行测试,可以改善这种情况。我自己对这个思路做过探索,这个镜像安装了Hadoop、Hive、Spark等组件,基本可以满足需求,但是也有一些问题存在,比如有时需要对配置进行调整来保持和生产环境的一致性,虽然可以做,但工作量也不少。其实,CDH和HDP都提供了类似的单机镜像,其中HDP中组件的版本比较新,并且和公司的技术栈一致,因此来探索一下,如果体验更好的话,以后就用它来进行相关的开发了。安装Docker 17.09 或更新的版本对于Windows和Mac,Docker需要配置10G以上的内存可以在浏览器里访问https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html点击页面下载,也可以直接在命令行用wget下载:解压并执行脚本:执行后会开始拉取docker镜像,需要下载几十G的数据,需要耐心等待。脚本执行完毕后,使用 docker ps可以看到启动了两个容器:其中 sandbox-proxy 这个容器先忽略,关注 sandbox-hdp 这个就可以,这时 香港云主机所有HDP的组件都已经启动了。因为已经做了端口映射,如果要访问特定的UI,直接访问localhost对应的端口就可以,可以先访问 localhost:1080的Splash页面:这里提供了向导,点击左边的Launch Dashboard可以打开Ambari登陆页面和HDP的Tutorial页面,点击右边的Quick Links会打开下一级向导,包含Ambari、Zeppelin、Atlas、Ranger等组件的跳转链接:其中Ambari的登陆密码可以参考https://www.cloudera.com/tutorials/learning-the-ropes-of-the-hdp-sandbox.html这个页面获取,根据不同用途可以选择不同的用户:Web UI的情况读者可以自行一一验证,下面来验证一下底层的存储和计算情况。命令行进入容器:简单的ls一下:Sandbox里已经内置了一些测试数据,select一下即可。首先启动hive命令行:查看有哪些数据库:选择foodmart,再查看有哪些表:可以看到有很多表,我们就选择account这张表:非常OK。启动spark-sql后查询account表:奇怪只有default库。做了一些搜索,发现貌似在HDP 3.0之后,Spark访问Hive表发生了大的变化,Spark的验证还需要进一步研究。使用docker stop命令即可:使用docker start命令即可:先stop再remove:如果要删除镜像的话:感谢各位的阅读,以上就是“基于Docker的大数据开发环境怎么实现”的内容了,经过本文的学习后,相信大家对基于Docker的大数据开发环境怎么实现这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是开发云,小编将为大家推送更多相关知识点的文章,欢迎关注!

相关推荐: nodejs中怎么爬取网站内容

这篇文章给大家介绍nodejs中怎么爬取网站内容,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。 1、constaxios=require(‘axios’); Axios是一个基于promise的HTTP库,可以用在浏览器和 node.js…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 09/16 17:24
下一篇 09/16 17:24

相关推荐