Spark 1.4.0 是 1.X 系列的第五个版本。此版本为 Spark 带来了 R API。它还带来了 Spark 核心引擎的可用性改进以及 MLlib 和 Spark Streaming 的扩展。Spark 1.4 代表了来自 70 多个机构的 210 多位贡献者通过 1000 多个独立补丁完成的工作。
要下载 Spark 1.4,请访问下载页面。
Spark 1.4 是第一个打包 SparkR 的版本,SparkR 是基于 Spark 新的 DataFrame API 的 Spark R 绑定。SparkR 让 R 用户能够访问 Spark 的横向扩展并行运行时以及所有 Spark 的输入和输出格式。它还支持直接调用 Spark SQL。R 编程指南中包含更多关于如何开始使用 SparkR 的信息。
Spark 核心增加了各种侧重于操作、性能和兼容性的改进
DataFrame API 在 Spark 1.4 中进行了重大扩展(有关完整列表,请参阅此链接),重点是分析和数学函数。Spark SQL 引入了新的操作实用程序以及对 ORCFile 的支持。
Spark 的 ML Pipelines API 在此版本中从 alpha 毕业,新增了转换器并改进了 Python 覆盖范围。MLlib 还添加了几种新算法。
Spark streaming 在 UI 中添加了可视化仪表图和显著改进的调试信息。它还增强了对 Kafka 和 Kinesis 的支持。
此版本有几个已知问题,将在 Spark 1.4.1 中解决
感谢以下组织,它们协助对发布候选版本进行了基准测试或集成测试
英特尔、Palantir、Cloudera、Mesosphere、华为、Shopify、Netflix、雅虎、加州大学伯克利分校和 Databricks。
感谢所有贡献者!