Spark 0.9.1 版本发布

Spark 0.9.1 是一个维护版本,包含错误修复、性能改进、更好的 YARN 稳定性以及改进的 Scala 和 Python API 对等性。 我们建议所有 0.9.0 用户升级到此稳定版本。 此版本的贡献来自 37 位开发者。

您可以下载 Spark 0.9.1 作为源代码包 源代码包 (6 MB tgz) 或预构建包用于 Hadoop 1 / CDH3, CDH4, 或 Hadoop 2 / CDH5 / HDP2 (160 MB tgz). 发布签名和校验和可在官方 Apache 下载站点获得。

Spark Core 中的改进和错误修复

  • 修复了外部溢出中的哈希冲突错误 [SPARK-1113]
  • 修复了依赖其他日志记录后端的用户的 Spark log4j 冲突 [SPARK-1190]
  • 修复了 Maven 构建中 Spark 程序集 jar 中缺少 Graphx 的问题
  • 修复了由于 map 输出状态超过 Akka 帧大小而导致的静默失败 [SPARK-1244]
  • 删除了 Spark 对 ASM 的不必要的直接依赖 [SPARK-782]
  • 由于 LGPL 许可冲突,从默认构建中删除了 metrics-ganglia [SPARK-1167]
  • 修复了分发 tarball 不包含 spark 程序集 jar 的错误 [SPARK-1184]
  • 修复了由于 map 输出位置中的 null 值而导致无限 NullPointerException 失败的错误 [SPARK-1124]
  • 修复了调度程序数据结构的作业后清理中的错误
  • 添加了创建捆绑了 Tachyon 的分发 tarball 的功能。 这简化了 Spark 与 Tachyon 的部署。
  • 添加了对 HBase 的 TableOutputFormat 和其他扩展 Configurable 的 OutputFormat 的支持

Spark-on-YARN 的稳定性改进

对 YARN 部署模式进行了一些错误修复

  • 修复了读取/写入 yarn 用户没有权限但提交用户有权限的文件的错误 [SPARK-1051]
  • 修复了当 YARN 注册失败时导致 Spark 应用程序停顿的错误 [SPARK-1032]
  • 在 yarn-client 模式下获取 HDFS 委派令牌的竞争条件 [SPARK-1203]
  • 修复了 yarn-client 模式下无法正确退出的错误 [SPARK-1049]
  • 修复了 ADD_JAR 环境变量未正确添加自定义 jar 的回归错误 [SPARK-1089]

对其他部署场景的改进

  • 将对 C3 EC2 实例的支持添加到用于启动 EC2 集群的 Spark EC2 脚本中。
  • 修复了独立模式下 jar URL 验证中的错误。

对 MLLib 的优化

  • 优化了 ALS 的内存使用 [MLLIB-25]
  • 优化了隐式 ALS 的 YtY 计算 [SPARK-1237]
  • 支持 ALS 中的负隐式输入 [MLLIB-22]
  • ALS 中设置随机种子 [SPARK-1238]
  • 更快地构建带有截距的特征 [SPARK-1260]
  • 检查 GLM 的 addIntercept 中的截距和权重 [SPARK-1327]

PySpark 的错误修复和更好的 API 对等性

  • 修复了 Python 解包中的错误 [SPARK-1135]
  • 修复了序列化长度超过 64K 的字符串的错误 [SPARK-1043]
  • 修复了当基本文件不可用时导致作业挂起的错误 [SPARK-1025]
  • 向 PySpark 添加了缺少的 RDD 操作 - top、zip、foldByKey、repartition、coalesce、getStorageLevel、setName 和 toDebugString

文档改进

  • 流式处理:添加了有关从 spark-shell 运行流式处理应用程序的文档
  • YARN:添加了有关使用安全的 HDFS 在 yarn-client 模式下运行 spark-shell 的文档

贡献者

  • Aaron Davidson - mergeCombiners 中的错误修复
  • Aaron Kimball - 流式处理编程指南的改进
  • Andrew Ash - worker 注册日志中的错误修复和文档改进
  • Andrew Or - map 输出状态大小和外部溢出中的哈希冲突的错误修复,以及流式处理编程指南的改进
  • Andrew Tulloch - MLLib 的小更新
  • Bijay Bisht - Hadoop < 1.0.1 的 hadoop-client 的修复以及 Spark on Mesos + CDH4.5.0 中的错误修复
  • Bouke van der Bijl - Python depickling 中的错误修复
  • Bryn Keller - 支持 HBase 的 TableOutputFormat
  • Chen Chao - spark-shell 脚本中的错误修复,以及流式处理编程指南的改进
  • Christian Lundgren - 支持 C3 EC2 实例类型
  • Diana Carroll - PySpark 编程指南的改进
  • Emtiaz Ahmed - UI 错误修复
  • Frank Dai - MLLib 的代码清理
  • Henry Saputra - Scala Option 的使用更改
  • jianghan - Java 示例中的错误修复
  • Josh Rosen - PySpark 字符串序列化和异常处理中的错误修复
  • Jyotiska NK - PySpark 文档和示例的改进
  • Kay Ousterhout - 调度程序处理任务失败中的多个错误修复
  • Kousuke Saruta - 使用 https 访问 github
  • Mark Grover - 分发 tar.gz 中的错误修复
  • Matei Zaharia - 由于 NPE 导致的任务失败处理中的错误修复,以及清理调度程序数据结构
  • Nan Zhu - PySpark RDD.takeSample 中的错误修复,以及使用 ADD_JAR 添加 JAR - 以及文档改进
  • Nick Lanham - 添加了创建带有 Tachyon 的分发 tarball 的功能
  • Patrick Wendell - ASM shading 中的错误修复,log4j 初始化修复,由于 LGPL 许可删除了 Ganglia,以及其他杂项错误修复
  • Prabin Banka - PySpark 中的 RDD.zip 和其他缺少的 RDD 操作
  • Prashant Sharma - PySpark 中的 RDD.foldByKey,以及其他 PySpark 文档改进
  • Qiuzhuang - 独立 worker 中的错误修复
  • Raymond Liu - 更改了 ZookeeperPersistenceEngine 中的工作目录
  • Reynold Xin - 文档和测试基础设施的改进
  • Sandy Ryza - 多个重要的 Yarn 错误修复和改进
  • Sean Owen - MLLib 的 ALS 的错误修复和改进
  • Shixiong Zhu - 修复了 SimpleDateFormat 的线程不安全使用
  • shiyun.wxm - UI 错误修复
  • Stevo Slavić - window 的 run-example 脚本中的错误修复
  • Tathagata Das - 流式处理文档的改进
  • Tom Graves - YARN 部署模式中的错误修复
  • Xiangrui Meng - ALS 和 GLM 的改进,以及 MLLib 编程指南


Spark 新闻存档

最新消息

存档