5.spark core之RDD编程

spark提供了对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。RDD是一个分布式的数据集合，数据可以跨越集群中的多个机器节点，被分区并行执行。
在spark中，对数据的所有操作不外乎创建RDD、转化已有RDD及调用RDD操作进行求值。spark会自动地将RDD中的数据分发到集群中并行执行。 spark提供了两种创建RDD的方式：读取外部数据源、将驱动器程序中的集合进行并行化。使用sparkContext的parallelize()方法将集合并行化。
parallelize()方法第二个参数可指定分区数。spark会为每个分区创建一个task任务，通常每个cpu需要2-4个分区。spark会自动地根据集群大小设置分区数，也支持通过parallelize()方法的第二个参数手动指定。注：除了开发和测试外，这种方式用得不多。这种方式需要把整个数据集先放到一台机器的内存中。 spark可接入多种hadoop支持的数据源来创建分布式数据集。包括：本地文件系统、HDFS、Cassandra、HBase、Amazon S3等。
spark支持多种存储格式，包括textFiles、SequenceFiles及其他hadoop存储格式。 RDD支持两种操作：转化操作和行动操作。
RDD的转化操作会返回一个新的RDD。转化操作是惰性求值的，只有行动操作用到转化操作生成的RDD时，才会真正进行转化。

spark使用lineage（血统）来记录转化操作生成的不同RDD之间的依赖关系。依赖分为窄依赖（narrow depe 香港云主机ndencies）和宽依赖（wide dependencies）。宽依赖对两个RDD基于key进行合并和重组，如join
行动操作则会向驱动器程序返回结果或把结果写入外部系统，会触发实际的计算。
RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。
cache最终也是调用了persist方法，默认的存储级别是仅在内存存储一份。

Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。

缓存有可能丢失，RDD的缓存容错机制保证即使缓存丢失也能保证计算正确执行。通过基于RDD的一系列转换，丢失的数据会被重算，由于RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，并不需要重算全部Partition。Lineage机制RDD的Lineage记录的是粗粒度的特定数据Transformation操作行为。当RDD的部分分区数据丢失时，可以通过Lineage来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了Spark的运用场合，所以Spark并不适用于所有高性能要求的场景，但同时相比细颗粒度的数据模型，也带来了性能的提升。Spark Lineage机制是通过RDD的依赖关系来执行的窄依赖可以在某个计算节点上直接通过计算父RDD的某块数据计算得到子RDD对应的某块数据。Checkpoint机制简介实现方式（checkpoint有两种实现方式,如果代码中没有设置checkpoint，则使用local的checkpoint模式，如果设置路径，则使用reliable的checkpoint模式。）LocalRDDCheckpointData：临时存储在本地executor的磁盘和内存上。该实现的特点是比较快，适合lineage信息需要经常被删除的场景（如GraphX），可容忍executor挂掉。忠于技术，热爱分享。欢迎关注公众号：java大数据编程，了解更多技术内容。

5.spark core之RDD编程

相关

相关推荐