Spark 1.3.0 版本发布

Spark 1.3.0 是 1.X 系列的第四个版本。 此版本带来了新的 DataFrame API,以及 Spark SQL 从 alpha 项目毕业。 它还在 Spark 的核心引擎中带来了可用性改进,并扩展了 MLlib 和 Spark Streaming。 Spark 1.3 代表了来自 60 多个机构的 174 位贡献者在 1000 多个独立补丁中所做的工作。

要下载 Spark 1.3,请访问下载页面。

Spark Core

Spark 1.3 在核心引擎中看到了一些可用性改进。 核心 API 现在支持多级聚合树,以帮助加速昂贵的 reduce 操作。 已为某些 gotcha 操作添加了改进的错误报告。 Spark 的 Jetty 依赖项现在已进行阴影处理,以帮助避免与用户程序冲突。 Spark 现在支持某些通信端点的 SSL 加密。 最后,实时 GC 指标记录计数已添加到 UI。

DataFrame API

Spark 1.3 添加了一个新的DataFrames API,该 API 在处理结构化数据集时提供强大而方便的运算符。 DataFrame 是基本 RDD API 的演变,它包括命名字段以及模式信息。 可以很容易地从诸如 Hive 表、JSON 数据、JDBC 数据库或 Spark 的新数据源 API 的任何实现等源构造 DataFrame。 数据帧将成为 Spark 组件之间以及导入和导出数据到其他系统时的常用交换格式。 Python、Scala 和 Java 中都支持数据帧。

Spark SQL

在此版本中,Spark SQL 从 alpha 项目毕业,为 HiveQL 方言和稳定的编程 API 提供向后兼容性保证。 Spark SQL 添加了对在数据源 API 中写入表的支持。 一个新的JDBC 数据源允许从 MySQL、Postgres 和其他 RDBMS 系统导入和导出。 各种小的更改扩展了 Spark SQL 中 HiveQL 的覆盖范围。 Spark SQL 还添加了对模式演进的支持,能够合并 Parquet 中兼容的模式

Spark ML/MLlib

在此版本中,Spark MLlib 引入了几个新算法:用于主题建模的潜在狄利克雷分配 (LDA),用于多类分类的 多项式逻辑回归,用于聚类的 高斯混合模型 (GMM)幂迭代聚类,用于频繁模式挖掘的 FP-growth 以及用于分布式线性代数的块矩阵抽象。 已添加对可交换格式的模型导入/导出的初始支持,该支持将在以后的版本中扩展,以涵盖 Java/Python/Scala 中更多模型类型。 k-means 和 ALS 的实现收到了 更新,从而显着提高了性能。 PySpark 现在支持 Spark 1.2 中添加的 ML 管道 API 以及梯度提升树高斯混合模型。 最后,ML 管道 API 已被移植以支持新的 DataFrames 抽象。

Spark Streaming

Spark 1.3 引入了一个新的 直接 Kafka API (文档),该 API 可以在不使用预写日志的情况下实现恰好一次的交付。 它还添加了一个 Python Kafka API 以及用于未来版本中其他 Python API 的基础架构。 还添加了 逻辑回归的在线版本以及读取 二进制记录的能力。 对于有状态操作,已添加对加载初始状态 RDD的支持。 最后,流编程指南已更新,包括有关流应用程序中 SQL 和 DataFrame 操作的信息,以及对容错语义的重要说明。

GraphX

GraphX 在此版本中添加了少量实用程序函数,包括转换为规范边图

升级到 Spark 1.3

Spark 1.3 与 Spark 1.X 版本二进制兼容,因此无需更改代码。 这不包括明确标记为不稳定的 API。

作为稳定 Spark SQL API 的一部分,SchemaRDD 类已重命名为 DataFrame。 Spark SQL 的 迁移指南详细描述了升级过程。 Spark SQL 现在还要求使用反引号转义使用保留字(例如“string”或“table”)的列标识符。

已知问题

此版本有一些已知问题,将在 Spark 1.3.1 中解决

  • SPARK-6194: PySPark 的 collect() 中的内存泄漏。
  • SPARK-6222: Spark Streaming 中恢复故障的问题。
  • SPARK-6315: Spark SQL 无法读取使用 Spark 1.1 生成的 parquet 数据。
  • SPARK-6247: 在 Spark SQL 中分析某些连接类型时出错。

贡献者

  • Aaron Davidson – Core 中的 Bug 修复
  • Alex Baretta – Core 中的改进
  • Alex Liu – Core 和 SQL 中的改进; SQL 中的 Bug 修复
  • Alexander Bezzubov – Core 中的文档
  • Alexander Ulanov – MLlib 中的 Umbrella; Core 和 MLlib 中的文档; MLlib 中的新功能
  • Andrew Ash – Core 中的文档
  • Andrew Or – Core 和 YARN 中的改进; Core 和 YARN 中的 Bug 修复
  • Andrew Rowson – YARN 中的 Bug 修复
  • Andrey Zagrebin – Core 和 PySpark 中的改进
  • Antonio Navarro Perez – Core 中的文档
  • Ben Cook – MLlib 和 PySpark 中的测试; PySpark 和 SQL 中的改进; Core 中的新功能
  • Bilna P – Streaming 中的测试
  • Brennon York – Core 中的新功能; Core、GraphX 和调度程序中的 Bug 修复; Core 中的改进
  • Burak Yavuz – spark submit 和 MLlib 中的改进; Core 和 MLlib 中的新功能; Core 和 spark submit 中的 Bug 修复; Core 和 MLlib 中的文档
  • Cheng Hao – SQL 中的改进; SQL 中的新功能; Core 和 SQL 中的 Bug 修复
  • Cheng Lian – Core 中的文档; SQL 中的测试; Core 和 SQL 中的改进; Core、测试和 SQL 中的 Bug 修复; SQL 中的改进
  • Cheolsoo Park – YARN 中的 Bug 修复
  • Chip Senkbeil – Core 中的 Bug 修复
  • Christophe Preaud – Core 中的改进
  • Cody Koeninger – Streaming 中的改进
  • DB Tsai – MLlib 中的改进; Core 和 MLlib 中的文档; MLlib 中的新功能; MLlib 中的 Bug 修复; MLlib 中的改进
  • Dale Richardson – Core 中的改进
  • Daniel Darabos – Core 中的 Bug 修复
  • Daoyuan Wang – SQL 中的改进; Core 和 SQL 中的改进; Core 和 SQL 中的新功能; SQL 中的 Bug 修复; Core 中的文档
  • David Y. Ross – Core 中的 Umbrella
  • Davies Liu – PySpark 中的改进; Core 和 PySpark 中的文档; Streaming 和 PySpark 中的新功能; Streaming、Core、PySpark、MLlib 和 SQL 中的 Bug 修复; PySpark 和 SQL 中的改进
  • Derek Ma – Shuffle 中的 Bug 修复
  • Doing Done – SQL 中的改进
  • Elmer Garduno – Core 中的 Bug 修复
  • Emre Sevinc – Core 和 MLlib 中的文档
  • Eric Moyer – Core 中的文档
  • Ernest – Core 和 GraphX 中的改进
  • Evan Yu – Core 中的 Bug 修复
  • Fan Jiang – MLlib 中的新功能
  • Fernando Otero (ZeoS) – MLlib 中的改进
  • Gabe Mulley – PySpark 和 SQL 中的 Bug 修复
  • Gang Li – Core 中的 Bug 修复
  • Gankun Luo – Core 中的改进; SQL 中的 Bug 修复
  • Gaspar Munoz – Core 中的文档
  • Gen TANG – EC2 中的 Bug 修复
  • Grzegorz Dubicki – EC2 中的改进
  • Guo Wei – SQL 中的 Bug 修复
  • GuoQiang Li – Core 中的改进; Core 和 YARN 中的 Bug 修复
  • Hari Shreedharan – Streaming、测试和 YARN 中的 Bug 修复
  • Holden Karau – EC2 中的改进
  • Huang Zhaowei – Core 和 YARN 中的 Bug 修复
  • Hung Lin – SQL 中的改进
  • Ilayaperumal Gopinathan – Streaming 中的 Bug 修复
  • Ilya Ganelin – Core 中的改进; Core 和 Shuffle 中的 Bug 修复
  • Imran Rashid – Core 中的 Bug 修复
  • Iulian Dragos – Streaming 中的测试
  • Ivan Vergiliev – Core 中的改进
  • Jacek Lewandowski – Core 中的 Bug 修复
  • Jacky Li – MLlib 和 SQL 中的改进; MLlib 中的新功能; MLlib 和 SQL 中的 Bug 修复
  • Jakub Dubovsky – MLlib 中的改进
  • Jeremy Freeman – Streaming 和 PySpark 中的改进; Streaming 和 MLlib 中的新功能; MLlib 和 PySpark 中的 Bug 修复
  • Jesper Lundgren – Streaming 中的 Bug 修复
  • Jongyoul Lee – Core 和 Mesos 中的改进; Streaming 中的文档; Core、Mesos 和 SQL 中的 Bug 修复
  • Joseph J.C. Tang – MLlib 中的 Bug 修复
  • Joseph K. Bradley – MLlib 中的新功能; MLlib 中的 Umbrella; Core 和 MLlib 中的文档; MLlib 中的改进; GraphX、MLlib 和 SQL 中的改进; Core、GraphX、PySpark、MLlib 和 SQL 中的 Bug 修复
  • Josh Rosen – Core 中的 Bug 修复
  • Josh Rosen – Core、测试、EC2 和 SQL 中的改进; Core 中的新功能; Core、测试、PySpark、Streaming、调度程序、SQL、spark submit 和 Web UI 中的 Bug 修复
  • Judy Nash – SQL 中的新功能
  • Kai Sasaki – Core 和 PySpark 中的文档; Core 和 MLlib 中的 Bug 修复
  • Kanwaljit Singh – Core 中的 Bug 修复
  • Kashish Jain – YARN 中的 Bug 修复
  • Kay Ousterhout – Web UI 中的改进; Core 中的新功能; Core 和 SQL 中的 Bug 修复
  • Kazuki Taniguchi – MLlib 和 PySpark 中的新功能
  • Kenji Kikushima – GraphX 中的 Bug 修复
  • Kenneth Myers – Streaming 中的文档
  • Kirill A. Korinskiy – Web UI 中的 Bug 修复
  • Kostas Sakellis – Core、Web UI 和 YARN 中的改进; Core 中的 Bug 修复; Core 中的改进
  • Kousuke Saruta – Core、Web UI 和 YARN 中的改进; Streaming 和 PySpark 中的新功能; Core 和 Web UI 中的 Bug 修复; Core 中的文档
  • Kuldeep – SQL 中的 Bug 修复
  • Li Zhihui – Core 中的文档
  • Liang-Chi Hsieh – Core、MLlib 和 SQL 中的改进; Core 中的测试; Core 中的文档; Core 和 SQL 中的 Bug 修复
  • Liangliang Gu – Web UI 中的 Bug 修复
  • Lianhui Wang – YARN 中的改进; Core 和 YARN 中的 Bug 修复
  • Liu Hao – GraphX 中的 Bug 修复
  • Liu Jiongzhou – MLlib 中的 Bug 修复
  • Lu Yan – SQL 中的改进
  • Lukasz Jastrzebski – 修复 Core 中的 Bug
  • Madhu Siddalingaiah – Core 中的文档
  • Makoto Fukuhara – Core 中的改进
  • Manoj Kumar – MLlib 和 PySpark 中的改进;Core 和 MLlib 中的文档
  • Marcelo Vanzin – Core 和 YARN 中的改进;Core、PySpark、YARN 和 SQL 中的 Bug 修复
  • Markus Dale – 修复 Core 中的 Bug
  • Martin Zapletal – Core 和 MLlib 中的文档;MLlib 中的新功能
  • Masayoshi TSUZUKI – Web UI 中的改进;Windows、Core 和 YARN 中的 Bug 修复
  • Matei Zaharia – Core 中的改进
  • Matt Whelan – 修复 Core 中的 Bug
  • Matthew Cheah – 修复 Core 中的 Bug
  • Mayur Rustagi – Streaming 中的文档
  • Meethu Mathew – MLlib 和 PySpark 中的新功能
  • Michael Armbrust – Core 中的改进;Core、MLlib 和 SQL 中的 Bug 修复;SQL 中的改进
  • Michael Davies – SQL 中的改进
  • Michael Nazario – PySpark 中的改进和 Bug 修复
  • Mike Jennings – EC2 中的新功能
  • Mingyu Kim – 修复 Core 中的 Bug
  • Nan Zhu – Streaming 中的改进;Core 中的文档;Core 和 Streaming 中的 Bug 修复
  • Nate Crosswhite – MLlib 和 PySpark 中的改进
  • Nathan Kronenfeld – 修复 Core 中的 Bug
  • Nathan McCarthy – 修复 Core 中的 Bug
  • Nicholas Chammas – EC2 中的改进;EC2 中的 umbrella;EC2 中的 Bug 修复;Core 中的文档
  • Nishkam Ravi – 修复 Core 中的 Bug
  • Octavian Geagla – MLlib 中的改进
  • Patrick Wendell – Core 中的改进;Core、测试和 Streaming 中的 Bug 修复;Core 中的改进
  • Paul Power – Core 中的文档
  • Peishen Jia – MLlib 中的新功能
  • Peng Xu – Core 中的文档
  • Peter Klipfel – Core 中的文档
  • Peter Rudenko – MLlib 中的改进
  • Peter Vandenabeele – Core 中的文档
  • Prabeesh K – Streaming 中的改进
  • Prashant Sharma – Core 中的新功能;Core 中的 Bug 修复;Core 和 Web UI 中的改进
  • RJ Nowling – MLlib 和 PySpark 中的新功能
  • Ravindra Pesala – SQL 中的改进
  • Reynold Xin – Core、Shuffle 和 SQL 中的改进;Core 中的文档;Core 和 SQL 中的 Bug 修复;Java API 和 SQL 中的改进
  • Reza Zadeh – MLlib 中的改进
  • Ryan Williams – Core 中的改进、Bug 修复和文档
  • Sadhan Sood – SQL 中的 Bug 修复
  • Saisai Shao – Streaming 中的改进;Streaming、SQL 和 Core 中的 Bug 修复;Streaming 中的改进
  • Sam Halliday – Core 中的改进
  • Sandy Ryza – Core 和 YARN 中的改进;Core 和 YARN 中的 Bug 修复;YARN 中的改进
  • Sasaki Toru – SQL 中的改进
  • Sean Owen – Core 中的文档;Core 中的 wish;Java API、Core、MLlib、EC2 和 Streaming 中的改进;Core、测试、MLlib、YARN、Streaming、SQL、Java API、Web UI 和 GraphX 中的 Bug 修复;Core 中的改进
  • Shekhar Bansal – YARN 中的 Bug 修复
  • Sheng Li – Core 和 SQL 中的改进;SQL 中的新功能;SQL 中的 Bug 修复;Core 中的文档
  • Shixiong Zhu – Core 中的测试;Core 中的改进;Streaming、SQL、Shuffle、YARN 和 Core 中的改进;Core、SQL 和 Streaming 中的 Bug 修复;Core、YARN 和 Streaming 中的文档
  • Shuo Xiang – MLlib 中的新功能
  • Soumitra Kumar – Streaming 中的新功能
  • Stephen Boesch – Core 和 MLlib 中的文档
  • Stephen Haberman – 修复 Core 中的 Bug
  • Su Yan – Core 中的改进;Core 和 Web UI 中的 Bug 修复
  • Takayuki Hasegawa – 修复 Project Infra 中的 Bug
  • Takeshi Yamamuro – GraphX 中的改进;Core 和 SQL 中的文档;GraphX 中的 Bug 修复
  • Takuya UESHIN – SQL 中的改进和 Bug 修复
  • Tathagata Das – Streaming 中的改进;Core、Web UI、PySpark、测试和 Streaming 中的 Bug 修复
  • Thomas Graves – 修复 Core 中的 Bug
  • Thu Kyaw – Core 和 SQL 中的改进
  • Timothy Chen – Core 中的文档
  • Tingjun Xu – Core 中的改进;Core 和 YARN 中的 Bug 修复
  • Tobias Schlatter – Core 中的改进和 Bug 修复
  • Tom Panning – SQL 中的 Bug 修复
  • Tor Myklebust – SQL 中的改进
  • Travis Galoppo – MLlib 中的改进;Core 和 MLlib 中的文档;MLlib 中的新功能
  • Tsuyoshi Ozawa – Core 和 YARN 中的文档
  • Uncle Gen – spark submit 和 Web UI 中的改进;Core 中的 Bug 修复
  • Varun Saxena – Core 中的改进
  • Venkata Ramana Gollamudi – Core 和 SQL 中的 Bug 修复;Core 中的改进
  • Vladimir Grigor – 修复 EC2 中的 Bug
  • Vladimir Vladimirov – PySpark 中的改进
  • Wang Fei – SQL 中的改进;Web UI 和 SQL 中的改进;SQL 中的 Bug 修复;Core 中的文档
  • Wang Tao – Core 和 YARN 中的改进;Core 和 YARN 中的 Bug 修复
  • Wenchen Fan – SQL 中的 Bug 修复
  • Winston Chen – 修复 PySpark 中的 Bug
  • Xiangrui Meng – PySpark、Core、Streaming、EC2 和 MLlib 中的改进;Core 和 MLlib 中的文档;MLlib 和 PySpark 中的新功能;PySpark、MLlib 和 SQL 中的 Bug 修复;MLlib 和 PySpark 中的改进
  • Xiaohua Yi – SQL 中的 Bug 修复
  • Xiaojing Wang – SQL 中的测试;SQL 中的改进;Core 中的文档
  • Xu Kun – 修复 Core 中的 Bug
  • Yadong Qi – SQL 中的 Bug 修复;Streaming 中的改进
  • Yanbo Liang – SQL、MLlib 和 PySpark 中的 Bug 修复
  • Yandu Oppacher – PySpark 中的改进
  • Yantang Zhai – Core 和 SQL 中的改进;SQL 中的 Bug 修复
  • Yash Datta – SQL 中的 Bug 修复
  • Ye Xianjin – 修复 Core 中的 Bug
  • Yi Tian – SQL 中的改进和 Bug 修复
  • Yin Huai – Core 中的文档;SQL 中的改进;SQL 中的 Bug 修复;SQL 中的改进
  • Yuhao Yang – MLlib 中的改进和 Bug 修复
  • Yuri Saito – MLlib 中的改进
  • Yuu ISHIKAWA – MLlib 中的新功能
  • Zhan Zhang – Core 和 YARN 中的 Bug 修复
  • Zhang, Liye – Core 和 Web UI 中的改进;Core 中的 Bug 修复

感谢所有贡献者!


Spark 新闻存档