OLAP中怎么使用Presto组件实现跨数据源分析

OLAP中怎么使用Presto组件实现跨数据源分析，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节，Presto虽然具备解析SQL的能力，但它并不属于标准的数据库范畴。Presto支持在线数据查询，包括Hive，关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并，可以跨越整个组织进行分析，Presto主要用来处理响应时间小于1秒到几分钟的场景。Presto查询引擎是基于Master-Slave的架构，运行在多台服务器上的分布香港云主机式系统，由一个Coordinator节点和多个Worker节点组成，Coordinator负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行，Worker节点负责实际执行查询任务。Coordinator节点Coordinator服务器是用来解析查询语句，执行计划分析和管理Presto的Worker结点，跟踪每个Work的活动情况并协调查询语句的执行。Coordinator为每个查询建立模型，模型包含多个Stage，每个Stage再转为Task分发到不同的Worker上执行，协调通信基于REST-API，Presto安装必须有一个Coordinator节点。Worker节点Worker负责执行查询任务和处理数据，从Connector获取数据，Worker间会交换中间数据。Coordinator从Worker获取结果并返回最终结果给Client端，当Worker启动时会广播自己并发现Coordinator，告知Coordinator可用状态，协调通信基于REST-API，Presto通常会安装多个Worker节点。数据源适配Presto可以适配多种不同的数据源，可以和数据源连接和交互，Presto是通过表的完全限定名处理table，Catalog对应类数据源，Schema对应数据库，Table对应数据表。Presto中处理的最小数据单元是一个Page对象，一个Page对象包含多个Block对象，每个Block对象是一个字节数组，存储一个字段的若干行，多个Block横切的一行是真实的一行数据。在presto安装目录中创建etc文件夹，并添加以下配置信息：节点属性每个节点的特定环境配置:etc/node.properties；配置内容：环境名称，唯一ID，数据目录。JVM 配置JVM的命令行选项，用于启动Java虚拟机的命令行选项列表:etc/jvm.config。配置属性Presto服务器的配置，每个Presto服务器都可以充当协调器和工作器，如果单独使用一台机器来执行协调工作可以在更大的集群上提供最佳性能，这里PrestoServer既当一个coordinator也是一个worker节点:etc/config.properties。这里coordinator=true表示当前Presto实例充当协调器角色。日志配置Catalog属性配置hive适配:配置MySQL适配:启动命令启动日志这样presto就启动成功了。看完上述内容，你们掌握OLAP中怎么使用Presto组件实现跨数据源分析的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注开发云行业资讯频道，感谢各位的阅读！

相关推荐: 如何在kubernetes上运行apache spark

这篇文章主要介绍“如何在kubernetes上运行apache spark”，在日常操作中，相信很多人在如何在kubernetes上运行apache spark问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何在kubernet…