Spark 发布 1.0.1

Spark 1.0.1 是一个维护版本,包含多个稳定性修复以及 Spark SQL (alpha) 库中的一些新特性。此版本基于 Spark 的 branch-1.0 维护分支。我们建议用户关注此分支的最新进展,以获取最稳定的 Spark 版本。

您可以下载 Spark 1.0.1 的源代码包 (5 MB tgz),或者适用于 Hadoop 1 / CDH3CDH4Hadoop 2 / CDH5 / HDP2 的预构建包 (160 MB tgz)。发布签名和校验和可在官方的 Apache 下载站点获取。

修复

Spark 1.0.1 包含多个组件的稳定性修复。下面重点介绍了一些更重要的修复。您可以访问 Spark 问题追踪器,获取完整的修复列表。

Spark 核心

  • 外部聚合期间缺少键的问题 (SPARK-2043)
  • Mesos 模式下作业失败期间的问题 (SPARK-1749)
  • 在 Scala shell 中定义 case class 时出错 (SPARK-1199)
  • 对 AWS 上的 r3.xlarge 实例的正确支持 (SPARK-1790)

PySpark

  • 大量任务快速完成时导致崩溃的问题 (SPARK-2282)
  • 在 YARN 客户端模式下导入 MLlib 的问题 (SPARK-2172)
  • 散列 None 时行为不正确 (SPARK-1468)

MLlib

Streaming

  • 慢速接收器启动时找不到键 (SPARK-2009)
  • KafkaInputDStream 的资源清理 (SPARK-2034)
  • Flume 事件大于 1020 字节的问题 (SPARK-1916)

SparkSQL 特性

已知问题

此版本包含一个已知问题:REPL 中带有内部引用的多语句行 (例如 > val x = 10; val y = x + 10) 会产生异常 (SPARK-2452)。此问题将在 1.0 分支上很快得到修复;该修复将包含在 1.0.2 版本中。

贡献者

以下开发者对此版本做出了贡献

  • Aaron Davidson – PySpark 和 Spark 核心中的错误修复
  • Ali Ghodsi – 文档更新
  • Anant – spark-ec2 脚本的兼容性修复
  • Anatoli Fomenko – MLlib 文档修复
  • Andre Schumacher – 嵌套 Parquet 数据
  • Andrew Ash – 文档
  • Andrew Or – 错误修复和文档
  • Ankur Dave – 错误修复
  • Arkadiusz Komarzewski – 文档修复
  • Baishuo – SQL 修复
  • Chen Chao – 注释修复和错误修复
  • Cheng Hao – SQL 特性
  • Cheng Lian – SQL 特性
  • Christian Tzolov – 构建改进
  • Clément MATHIEU – 文档更新
  • CodingCat – 文档更新和错误修复
  • Colin McCabe – 错误修复
  • Daoyuan – SQL 连接
  • David Lemieux – 错误修复
  • Derek Ma – 错误修复
  • Doris Xin – 错误修复
  • Erik Selin – PySpark 修复
  • Gang Bai – 错误修复
  • Guoqiang Li – 错误修复
  • Henry Saputra – 文档
  • Jiang – 文档修复
  • Joy Yoj – 错误修复
  • Jyotiska NK – 测试改进
  • Kan Zhang – PySpark SQL 特性
  • Kay Ousterhout – 文档修复
  • LY Lai – 错误修复
  • Lars Albertsson – 错误修复
  • Lei Zhang – SQL 修复和特性
  • Mark Hamstra – 错误修复
  • Matei Zaharia – 文档更新和错误修复
  • Matthew Farrellee – 错误修复
  • Michael Armbrust – SQL 特性和修复
  • Neville Li – 错误修复
  • Nick Chammas – 文档修复
  • Ori Kremer – 错误修复
  • Patrick Wendell – 文档和发布经理
  • Prashant Sharma – 错误和文档修复
  • Qiuzhuang.Lian – 错误修复
  • Raymond Liu – 错误修复
  • Ravikanth Nawada – 错误修复
  • Reynold Xin – 错误和文档修复
  • Sameer Agarwal – 优化
  • Sandy Ryza – 文档修复
  • Sean Owen – 错误修复
  • Sebastien Rainville – 错误修复
  • Shixiong Zhu – 代码清理
  • Szul, Piotr – 错误修复
  • Takuya UESHIN – 错误修复和 SQL 特性
  • Thomas Graves – 错误修复
  • Uri Laserson – 错误修复
  • Vadim Chekan – 错误修复
  • Varakhedi Sujeet – EC2 r3 支持
  • Vlad – 文档修复
  • Wang Lianhui – 错误修复
  • Wenchen Fan – 优化
  • William Benton – SQL 特性
  • Xi Liu – SQL 特性
  • Xiangrui Meng – 错误修复
  • Ximo Guanter Gonzalbez – SQL 特性
  • Yadid Ayzenberg – 文档修复
  • Yijie Shen – 错误修复
  • Yin Huai – JSON 支持和错误修复
  • Zhen Peng – 错误修复
  • Zichuan Ye – EC2 修复
  • Zongheng Yang – SQL 修复

感谢所有贡献者!


Spark 新闻档案