Spark 0.6.0 是一个重要版本,带来了多项新功能、架构改进和性能提升。最显著的增加是独立的部署模式、Java API 和扩展的文档;但在底层也有许多其他更改,这些更改在某些情况下将性能提高了多达2倍。
您可以将此版本下载为源代码包 (2 MB tar.gz) 或预构建包 (48 MB tar.gz)
除了在 Mesos 上运行,Spark 现在还有一种独立部署模式,让您无需安装外部集群管理器即可快速启动集群。独立模式只需要每台机器上安装 Java,并部署 Spark。
此外,还有在 YARN (Hadoop NextGen) 上运行的实验性支持,目前在单独的分支中。
Java 程序员现在可以通过新的Java API 层使用 Spark。此层以 Java 友好的方式提供了 Spark 的所有功能,包括并行转换、分布式数据集、广播变量和累加器。
Spark 的文档已扩展,增加了新的快速入门指南、额外的部署说明、配置指南、调优指南以及改进的Scaladoc API 文档。
在底层,Spark 0.6 采用了即将推出的Spark Streaming 项目中引入的新的自定义存储和通信层。这些可以使性能比以前的版本提高多达2倍。具体来说:
或 JAR:SparkContext.addFile/Jar.
Spark 的日志现在会打印日志中描述的每个 RDD 和作业属于程序中的哪个操作,从而更容易将问题追溯到代码的哪个部分。
Spark 现在可在 Maven Central 中使用,使其更容易链接到您的程序中,而无需将其构建为 JAR。使用以下 Maven 标识符将其添加到项目中:
此版本与 Spark 0.5 程序源代码兼容,但您需要针对 0.6 重新编译它们。此外,缓存的配置已更改:不再有spark.cache.class参数来为所有 RDD 设置一个缓存策略,您现在可以设置每个 RDD 的存储级别。如果您尝试设置该参数,Spark 将发出警告。spark.cache.class.
Spark 0.6 是伯克利和外部的许多新贡献者共同努力的成果。
还要感谢所有认真提出功能建议或报告错误的 Spark 用户。