Spark组件Spark SQL的实例分析

1449272589 • 09/22 22:06 • Linux技术 • 阅读 101

Spark组件Spark SQL的实例分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。DataFrame是DataSet以命名列方式组织的分布式数据集，类似于RDBMS中的表，或者R和Python中的 data frame。DataFrame API支持Scala、Java、Python、R。在Scala API中，DataFrame变成类型为Row的Dataset：type DataFrame = Dataset[Row]。
以加载json和mysql为例：val ds = sparkSession.read.json("/路径/people.json")

val ds = sparkSession.read.format("jdbc") .options(Map("url" -> "jdbc:mysql://ip:port/db", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "tableName", "user" -> "root", "root" -> "123")).load()
注意：直接使用col方法需要import org.apache.spark.sql.functions._//查询年龄最大的前两名首先要获取Spark SQL编程”入口”：SparkSession（当然在早期版本中大家可能更熟悉的是SQLContext，如果是操作hive则为HiveContext）。这里以读取parquet为例：在项目pom文件中引入相关驱动包，跟访问mysql等jdbc数据源类似。示例：Spark SQL 获取Hive数据hive.metastore.uristhrift://ip:port最后，将hive-site.xml复制或者软链到$SPARK_HOME/conf/。如果香港云主机hive的元数据存储在mysql中，那么需要将mysql的连接驱动jar包如mysql-connector-java-5.1.12.jar放到$SPARK_HOME/lib/下，启动spark-sql即可操作hive中的库和表。而此时使用hive元数据获取SparkSession的方式为：val spark = SparkSession.builder()Aggregator看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注开发云行业资讯频道，感谢您对开发云的支持。

相关推荐: 当Jvm遇到new关键字会发生什么

这篇文章主要介绍“当Jvm遇到new关键字会发生什么”，在日常操作中，相信很多人在当Jvm遇到new关键字会发生什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”当Jvm遇到new关键字会发生什么”的疑惑有所帮助！接下来，请跟着…