Spark 0.9.1 版本发布
Spark 0.9.1 是一个维护版本,包含错误修复、性能改进、更好的 YARN 稳定性以及改进的 Scala 和 Python API 对等性。 我们建议所有 0.9.0 用户升级到此稳定版本。 此版本的贡献来自 37 位开发者。
您可以下载 Spark 0.9.1 作为源代码包 源代码包 (6 MB tgz) 或预构建包用于 Hadoop 1 / CDH3, CDH4, 或 Hadoop 2 / CDH5 / HDP2 (160 MB tgz). 发布签名和校验和可在官方 Apache 下载站点获得。
Spark Core 中的改进和错误修复
- 修复了外部溢出中的哈希冲突错误 [SPARK-1113]
- 修复了依赖其他日志记录后端的用户的 Spark log4j 冲突 [SPARK-1190]
- 修复了 Maven 构建中 Spark 程序集 jar 中缺少 Graphx 的问题
- 修复了由于 map 输出状态超过 Akka 帧大小而导致的静默失败 [SPARK-1244]
- 删除了 Spark 对 ASM 的不必要的直接依赖 [SPARK-782]
- 由于 LGPL 许可冲突,从默认构建中删除了 metrics-ganglia [SPARK-1167]
- 修复了分发 tarball 不包含 spark 程序集 jar 的错误 [SPARK-1184]
- 修复了由于 map 输出位置中的 null 值而导致无限 NullPointerException 失败的错误 [SPARK-1124]
- 修复了调度程序数据结构的作业后清理中的错误
- 添加了创建捆绑了 Tachyon 的分发 tarball 的功能。 这简化了 Spark 与 Tachyon 的部署。
- 添加了对 HBase 的 TableOutputFormat 和其他扩展 Configurable 的 OutputFormat 的支持
Spark-on-YARN 的稳定性改进
对 YARN 部署模式进行了一些错误修复
对其他部署场景的改进
- 将对 C3 EC2 实例的支持添加到用于启动 EC2 集群的 Spark EC2 脚本中。
- 修复了独立模式下 jar URL 验证中的错误。
对 MLLib 的优化
PySpark 的错误修复和更好的 API 对等性
- 修复了 Python 解包中的错误 [SPARK-1135]
- 修复了序列化长度超过 64K 的字符串的错误 [SPARK-1043]
- 修复了当基本文件不可用时导致作业挂起的错误 [SPARK-1025]
- 向 PySpark 添加了缺少的 RDD 操作 - top、zip、foldByKey、repartition、coalesce、getStorageLevel、setName 和 toDebugString
文档改进
- 流式处理:添加了有关从 spark-shell 运行流式处理应用程序的文档
- YARN:添加了有关使用安全的 HDFS 在 yarn-client 模式下运行 spark-shell 的文档
贡献者
- Aaron Davidson - mergeCombiners 中的错误修复
- Aaron Kimball - 流式处理编程指南的改进
- Andrew Ash - worker 注册日志中的错误修复和文档改进
- Andrew Or - map 输出状态大小和外部溢出中的哈希冲突的错误修复,以及流式处理编程指南的改进
- Andrew Tulloch - MLLib 的小更新
- Bijay Bisht - Hadoop < 1.0.1 的 hadoop-client 的修复以及 Spark on Mesos + CDH4.5.0 中的错误修复
- Bouke van der Bijl - Python depickling 中的错误修复
- Bryn Keller - 支持 HBase 的 TableOutputFormat
- Chen Chao - spark-shell 脚本中的错误修复,以及流式处理编程指南的改进
- Christian Lundgren - 支持 C3 EC2 实例类型
- Diana Carroll - PySpark 编程指南的改进
- Emtiaz Ahmed - UI 错误修复
- Frank Dai - MLLib 的代码清理
- Henry Saputra - Scala Option 的使用更改
- jianghan - Java 示例中的错误修复
- Josh Rosen - PySpark 字符串序列化和异常处理中的错误修复
- Jyotiska NK - PySpark 文档和示例的改进
- Kay Ousterhout - 调度程序处理任务失败中的多个错误修复
- Kousuke Saruta - 使用 https 访问 github
- Mark Grover - 分发 tar.gz 中的错误修复
- Matei Zaharia - 由于 NPE 导致的任务失败处理中的错误修复,以及清理调度程序数据结构
- Nan Zhu - PySpark RDD.takeSample 中的错误修复,以及使用 ADD_JAR 添加 JAR - 以及文档改进
- Nick Lanham - 添加了创建带有 Tachyon 的分发 tarball 的功能
- Patrick Wendell - ASM shading 中的错误修复,log4j 初始化修复,由于 LGPL 许可删除了 Ganglia,以及其他杂项错误修复
- Prabin Banka - PySpark 中的 RDD.zip 和其他缺少的 RDD 操作
- Prashant Sharma - PySpark 中的 RDD.foldByKey,以及其他 PySpark 文档改进
- Qiuzhuang - 独立 worker 中的错误修复
- Raymond Liu - 更改了 ZookeeperPersistenceEngine 中的工作目录
- Reynold Xin - 文档和测试基础设施的改进
- Sandy Ryza - 多个重要的 Yarn 错误修复和改进
- Sean Owen - MLLib 的 ALS 的错误修复和改进
- Shixiong Zhu - 修复了 SimpleDateFormat 的线程不安全使用
- shiyun.wxm - UI 错误修复
- Stevo Slavić - window 的 run-example 脚本中的错误修复
- Tathagata Das - 流式处理文档的改进
- Tom Graves - YARN 部署模式中的错误修复
- Xiangrui Meng - ALS 和 GLM 的改进,以及 MLLib 编程指南
Spark 新闻存档