Spark 1.0.1 版本发布

Spark 1.0.1 是一个维护版本,包含多个稳定性修复以及 Spark SQL (alpha) 库中的一些新特性。此版本基于 Spark 的 branch-1.0 维护分支。 我们建议用户遵循此分支的头部以获取最新的 Spark 稳定版本。

您可以下载 Spark 1.0.1 作为 源代码包 (5 MB tgz) 或为 Hadoop 1 / CDH3, CDH4, 或 Hadoop 2 / CDH5 / HDP2 (160 MB tgz) 的预构建包。 发布签名和校验和可在官方 Apache 下载站点 获取。

修复

Spark 1.0.1 包含多个组件中的稳定性修复。 下面突出显示了一些更重要的修复。 您可以访问 Spark 问题跟踪器 获取修复的完整列表。

Spark Core

  • 外部聚合期间缺少键的问题 (SPARK-2043)
  • 在 Mesos 模式下作业失败期间的问题 (SPARK-1749)
  • 在 Scala shell 中定义 case 类时出错 (SPARK-1199)
  • 对 AWS 上 r3.xlarge 实例的正确支持 (SPARK-1790)

PySpark

  • 导致大量任务快速完成时崩溃的问题 (SPARK-2282)
  • 在 YARN-client 模式下导入 MLlib 的问题 (SPARK-2172)
  • 散列 None 时的不正确行为 (SPARK-1468)

MLlib

Streaming

  • 缓慢的接收器启动时找不到键 (SPARK-2009)
  • 使用 KafkaInputDStream 进行资源清理 (SPARK-2034)
  • Flume 事件大于 1020 字节的问题 (SPARK-1916)

SparkSQL 特性

已知问题

此版本包含一个已知问题:REPL 中具有内部引用的多语句行 (> val x = 10; val y = x + 10) 会产生异常 (SPARK-2452)。 这将在 1.0 分支上尽快修复; 该修复程序将包含在 1.0.2 版本中。

贡献者

以下开发者为这个版本做出了贡献

  • Aaron Davidson – PySpark 和 Spark core 中的 bug 修复
  • Ali Ghodsi – 文档更新
  • Anant – spark-ec2 脚本的兼容性修复
  • Anatoli Fomenko – MLlib 文档修复
  • Andre Schumacher – 嵌套的 Parquet 数据
  • Andrew Ash – 文档
  • Andrew Or – bug 修复和文档
  • Ankur Dave – bug 修复
  • Arkadiusz Komarzewski – 文档修复
  • Baishuo – sql 修复
  • Chen Chao – 注释修复和 bug 修复
  • Cheng Hao – SQL 特性
  • Cheng Lian – SQL 特性
  • Christian Tzolov – 构建改进
  • Clément MATHIEU – 文档更新
  • CodingCat – 文档更新和 bug 修复
  • Colin McCabe – bug 修复
  • Daoyuan – SQL 连接
  • David Lemieux – bug 修复
  • Derek Ma – bug 修复
  • Doris Xin – bug 修复
  • Erik Selin – PySpark 修复
  • Gang Bai – bug 修复
  • Guoqiang Li – bug 修复
  • Henry Saputra – 文档
  • Jiang – 文档修复
  • Joy Yoj – bug 修复
  • Jyotiska NK – 测试改进
  • Kan Zhang – PySpark SQL 特性
  • Kay Ousterhout – 文档修复
  • LY Lai – bug 修复
  • Lars Albertsson – bug 修复
  • Lei Zhang – SQL 修复和特性
  • Mark Hamstra – bug 修复
  • Matei Zaharia – 文档更新和 bug 修复
  • Matthew Farrellee – bug 修复
  • Michael Armbrust – sql 特性和修复
  • Neville Li – buf 修复
  • Nick Chammas – 文档修复
  • Ori Kremer – bug 修复
  • Patrick Wendell – 文档和发布经理
  • Prashant Sharma – bug 和文档修复
  • Qiuzhuang.Lian – bug 修复
  • Raymond Liu – bug 修复
  • Ravikanth Nawada – bug 修复
  • Reynold Xin – bug 和文档修复
  • Sameer Agarwal – 优化
  • Sandy Ryza – 文档修复
  • Sean Owen – bug 修复
  • Sebastien Rainville – bug 修复
  • Shixiong Zhu – 代码清理
  • Szul, Piotr – bug 修复
  • Takuya UESHIN – bug 修复和 SQL 特性
  • Thomas Graves – bug 修复
  • Uri Laserson – bug 修复
  • Vadim Chekan – bug 修复
  • Varakhedi Sujeet – ec2 r3 支持
  • Vlad – 文档修复
  • Wang Lianhui – bug 修复
  • Wenchen Fan – 优化
  • William Benton – SQL 特性
  • Xi Liu – SQL 特性
  • Xiangrui Meng – bug 修复
  • Ximo Guanter Gonzalbez – SQL 特性
  • Yadid Ayzenberg – 文档修复
  • Yijie Shen – buf 修复
  • Yin Huai – JSON 支持和 bug 修复
  • Zhen Peng – bug 修复
  • Zichuan Ye – ec2 修复
  • Zongheng Yang – sql 修复

感谢所有贡献者!


Spark 新闻存档