Spark 0.7.3 发布

Spark 0.7.3 是一个维护版本，包含多项错误修复、性能改进和新功能。您可以下载源代码包（4 MB tar.gz），或者获取适用于 Hadoop 1 / CDH3 或 CDH 4 的预构建包（61 MB tar.gz）。

我们建议所有用户更新到此维护版本。

此版本中的改进包括：

Spark shell 中新增“添加 JARs”功能： spark-shell 的用户现在可以设置 ADD_JARS 环境变量，将 JAR 列表添加到其集群中；这些 JAR 也将发送给工作节点。
Windows 修复： Spark 独立集群现在可以在作业结束或失败时正确终止执行器。此外，使用反斜杠添加 JAR 路径现在可以正常工作。
Streaming API 修复： Spark Streaming 的 Kafka 和 Twitter API 已更新。对于 Twitter，这是为了应对 Twitter 禁用用户名/密码认证方法的问题；对于 Kafka，则是为了允许接收字符串以外的消息。请注意，由于 Streaming API 仍处于 alpha 阶段，这些是破坏性 API 更改。
Python 性能： Spark 生成 Python 虚拟机（VM）的机制已改进，当 JVM 堆大小较大时能更快地生成，从而加快了 Python API 的速度。
Mesos 修复： 现在，在 Mesos 中反序列化任务结果时，添加到您作业中的 JAR 将位于类路径中。
错误报告： 改进了不可序列化异常和过大任务结果的错误报告。
示例： 添加了一个使用 updateStateByKey 进行有状态流处理的示例。
构建： Spark Streaming 不再依赖 Twitter4J 仓库，这应该使其能够在中国构建。
错误修复： 修复了 foldByKey、流式 count、统计方法、文档和 Web UI 中的错误。

以下人员为本次发布做出了贡献：