Spark 1.4.0 是 1.X 系列的第五个版本。此版本为 Spark 带来了 R API。它还改进了 Spark 核心引擎的可用性,并扩展了 MLlib 和 Spark Streaming。 Spark 1.4 代表了来自 70 多个机构的 210 多位贡献者在 1000 多个单独补丁中的工作成果。
要下载 Spark 1.4,请访问下载页面。
Spark 1.4 是第一个打包 SparkR 的版本,SparkR 是基于 Spark 新的 DataFrame API 的 Spark R 绑定。 SparkR 使 R 用户可以访问 Spark 的横向扩展并行运行时,以及 Spark 的所有输入和输出格式。 它还支持直接调用 Spark SQL。 R 编程指南提供了有关如何开始使用 SparkR 的更多信息。
Spark core 增加了一系列改进,重点在于操作、性能和兼容性
DataFrame API 在 Spark 1.4 中进行了重大扩展(有关完整列表,请参见此链接),重点在于分析和数学函数。 Spark SQL 引入了新的操作实用程序,以及对 ORCFile 的支持。
Spark 的 ML pipelines API 在此版本中从 alpha 版本毕业,具有新的 transformers 并改进了 Python 覆盖率。 MLlib 还添加了几种新算法。
Spark streaming 添加了可视化仪表图,并显着改进了 UI 中的调试信息。 它还增强了对 Kafka 和 Kinesis 的支持。
此版本有一些已知问题,将在 Spark 1.4.1 中解决
感谢以下组织,他们帮助基准测试或集成测试候选版本
英特尔、Palantir、Cloudera、Mesosphere、华为、Shopify、Netflix、Yahoo、加州大学伯克利分校和 Databricks。
感谢所有贡献者!