基于Docker的大数据开发环境怎么实现

这篇文章主要讲解了“基于Docker的大数据开发环境怎么实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“基于Docker的大数据开发环境怎么实现”吧！大数据开发对运行环境和数据的依赖比较重，比如开发Spark应用，往往会依赖Hive，但本地开发环境是没有Hive的，所以需要在本地和服务器之间拷贝代码，效率不高，我认为用Docker在本地搭建一套单机的大数据集群，然后将代码拷贝到容器里进行测试，可以改善这种情况。我自己对这个思路做过探索，这个镜像安装了Hadoop、Hive、Spark等组件，基本可以满足需求，但是也有一些问题存在，比如有时需要对配置进行调整来保持和生产环境的一致性，虽然可以做，但工作量也不少。其实，CDH和HDP都提供了类似的单机镜像，其中HDP中组件的版本比较新，并且和公司的技术栈一致，因此来探索一下，如果体验更好的话，以后就用它来进行相关的开发了。安装Docker 17.09 或更新的版本对于Windows和Mac，Docker需要配置10G以上的内存可以在浏览器里访问https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html点击页面下载，也可以直接在命令行用wget下载：解压并执行脚本：执行后会开始拉取docker镜像，需要下载几十G的数据，需要耐心等待。脚本执行完毕后，使用 docker ps可以看到启动了两个容器：其中 sandbox-proxy 这个容器先忽略，关注 sandbox-hdp 这个就可以，这时香港云主机所有HDP的组件都已经启动了。因为已经做了端口映射，如果要访问特定的UI，直接访问localhost对应的端口就可以，可以先访问 localhost:1080的Splash页面：这里提供了向导，点击左边的Launch Dashboard可以打开Ambari登陆页面和HDP的Tutorial页面，点击右边的Quick Links会打开下一级向导，包含Ambari、Zeppelin、Atlas、Ranger等组件的跳转链接：其中Ambari的登陆密码可以参考https://www.cloudera.com/tutorials/learning-the-ropes-of-the-hdp-sandbox.html这个页面获取，根据不同用途可以选择不同的用户：Web UI的情况读者可以自行一一验证，下面来验证一下底层的存储和计算情况。命令行进入容器：简单的ls一下：Sandbox里已经内置了一些测试数据，select一下即可。首先启动hive命令行：查看有哪些数据库：选择foodmart，再查看有哪些表：可以看到有很多表，我们就选择account这张表：非常OK。启动spark-sql后查询account表：奇怪只有default库。做了一些搜索，发现貌似在HDP 3.0之后，Spark访问Hive表发生了大的变化，Spark的验证还需要进一步研究。使用docker stop命令即可：使用docker start命令即可：先stop再remove：如果要删除镜像的话：感谢各位的阅读，以上就是“基于Docker的大数据开发环境怎么实现”的内容了，经过本文的学习后，相信大家对基于Docker的大数据开发环境怎么实现这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是开发云，小编将为大家推送更多相关知识点的文章，欢迎关注！

相关推荐: nodejs中怎么爬取网站内容

这篇文章给大家介绍nodejs中怎么爬取网站内容，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。 1、constaxios=require(‘axios’); Axios是一个基于promise的HTTP库，可以用在浏览器和 node.js…