Spark 0.7.3 发布

Spark 0.7.3 是一个维护版本,包含一些错误修复、性能修复和新功能。 您可以将其下载为 源代码包(4 MB tar.gz),或者获取针对 Hadoop 1 / CDH3CDH 4 的预构建包(61 MB tar.gz)。

我们建议所有用户更新到此维护版本。

此版本中的改进包括

  • Spark shell 中的新 "添加 JAR" 功能: spark-shell 的用户现在可以设置 ADD_JARS 环境变量,以向其集群添加 JAR 列表;这些 JAR 也会发送给 worker。
  • Windows 修复: Spark 独立集群现在可以在作业结束或失败时正确地终止 executors。 此外,添加带有反斜杠的 JAR 路径现在可以正常工作。
  • Streaming API 修复: Spark Streaming 的 Kafka 和 Twitter API 已更新。 在 Twitter 案例中,这是为了处理 Twitter 中已禁用的用户名/密码身份验证方法,而在 Kafka 案例中,这是为了允许接收字符串以外的消息。 请注意,这些都是破坏性的 API 更改,因为 Streaming API 仍处于 alpha 阶段。
  • Python 性能: 改进了 Spark 产生 Python VM 的机制,以便在 JVM 具有较大的堆大小时更快地执行,从而加速 Python API。
  • Mesos 修复: 添加到您作业的 JAR 现在将在 Mesos 中反序列化任务结果时位于类路径上。
  • 错误报告: 改进了对不可序列化异常和过大的任务结果的错误报告。
  • 示例: 添加了使用 updateStateByKey 的有状态流处理的示例。
  • 构建: Spark Streaming 不再依赖 Twitter4J repo,这应该允许它在中国构建。
  • foldByKey、流式 count、统计方法、文档和 Web UI 中的 Bug 修复

以下人员为该版本的发布做出了贡献

  • Charles Reiss (Mesos)
  • Christoph Grothaus (Windows 产生修复)
  • Christopher Nguyen (bug 修复)
  • James Phillpotts (Twitter 输入流)
  • Jey Kottalam (Python 性能)
  • Josh Rosen (可用性)
  • Konstantin Boudnik (构建)
  • Mark Hamstra (构建)
  • Matei Zaharia (Windows, 文档, ADD_JARS, Python, streaming)
  • Patrick Wendell (可用性)
  • Tathagata Das (streaming 修复)
  • Jerry Shao (bug 修复)
  • S. Kumar (示例)
  • Sean McNamara (Kafka 输入流, streaming 修复)


Spark 新闻存档

最新消息

存档