Spark 0.7.3 发布

Spark 0.7.3 是一个维护版本,包含多项错误修复、性能改进和新功能。您可以下载源代码包(4 MB tar.gz),或者获取适用于 Hadoop 1 / CDH3CDH 4 的预构建包(61 MB tar.gz)。

我们建议所有用户更新到此维护版本。

此版本中的改进包括:

  • Spark shell 中新增“添加 JARs”功能: spark-shell 的用户现在可以设置 ADD_JARS 环境变量,将 JAR 列表添加到其集群中;这些 JAR 也将发送给工作节点。
  • Windows 修复: Spark 独立集群现在可以在作业结束或失败时正确终止执行器。此外,使用反斜杠添加 JAR 路径现在可以正常工作。
  • Streaming API 修复: Spark Streaming 的 Kafka 和 Twitter API 已更新。对于 Twitter,这是为了应对 Twitter 禁用用户名/密码认证方法的问题;对于 Kafka,则是为了允许接收字符串以外的消息。请注意,由于 Streaming API 仍处于 alpha 阶段,这些是破坏性 API 更改。
  • Python 性能: Spark 生成 Python 虚拟机(VM)的机制已改进,当 JVM 堆大小较大时能更快地生成,从而加快了 Python API 的速度。
  • Mesos 修复: 现在,在 Mesos 中反序列化任务结果时,添加到您作业中的 JAR 将位于类路径中。
  • 错误报告: 改进了不可序列化异常和过大任务结果的错误报告。
  • 示例: 添加了一个使用 updateStateByKey 进行有状态流处理的示例。
  • 构建: Spark Streaming 不再依赖 Twitter4J 仓库,这应该使其能够在中国构建。
  • 错误修复: 修复了 foldByKey、流式 count、统计方法、文档和 Web UI 中的错误。

以下人员为本次发布做出了贡献:

  • Charles Reiss (Mesos)
  • Christoph Grothaus (Windows 启动修复)
  • Christopher Nguyen (错误修复)
  • James Phillpotts (Twitter 输入流)
  • Jey Kottalam (Python 性能)
  • Josh Rosen (可用性)
  • Konstantin Boudnik (构建)
  • Mark Hamstra (构建)
  • Matei Zaharia (Windows, 文档, ADD_JARS, Python, 流式处理)
  • Patrick Wendell (可用性)
  • Tathagata Das (流式处理修复)
  • Jerry Shao (错误修复)
  • S. Kumar (示例)
  • Sean McNamara (Kafka 输入流, 流式处理修复)


Spark 新闻存档