Spark 0.7.3 发布
Spark 0.7.3 是一个维护版本,包含多项错误修复、性能改进和新功能。您可以下载源代码包(4 MB tar.gz),或者获取适用于 Hadoop 1 / CDH3 或 CDH 4 的预构建包(61 MB tar.gz)。
我们建议所有用户更新到此维护版本。
此版本中的改进包括:
- Spark shell 中新增“添加 JARs”功能:
spark-shell
的用户现在可以设置 ADD_JARS
环境变量,将 JAR 列表添加到其集群中;这些 JAR 也将发送给工作节点。
- Windows 修复: Spark 独立集群现在可以在作业结束或失败时正确终止执行器。此外,使用反斜杠添加 JAR 路径现在可以正常工作。
- Streaming API 修复: Spark Streaming 的 Kafka 和 Twitter API 已更新。对于 Twitter,这是为了应对 Twitter 禁用用户名/密码认证方法的问题;对于 Kafka,则是为了允许接收字符串以外的消息。请注意,由于 Streaming API 仍处于 alpha 阶段,这些是破坏性 API 更改。
- Python 性能: Spark 生成 Python 虚拟机(VM)的机制已改进,当 JVM 堆大小较大时能更快地生成,从而加快了 Python API 的速度。
- Mesos 修复: 现在,在 Mesos 中反序列化任务结果时,添加到您作业中的 JAR 将位于类路径中。
- 错误报告: 改进了不可序列化异常和过大任务结果的错误报告。
- 示例: 添加了一个使用
updateStateByKey
进行有状态流处理的示例。
- 构建: Spark Streaming 不再依赖 Twitter4J 仓库,这应该使其能够在中国构建。
- 错误修复: 修复了
foldByKey
、流式 count
、统计方法、文档和 Web UI 中的错误。
以下人员为本次发布做出了贡献:
- Charles Reiss (Mesos)
- Christoph Grothaus (Windows 启动修复)
- Christopher Nguyen (错误修复)
- James Phillpotts (Twitter 输入流)
- Jey Kottalam (Python 性能)
- Josh Rosen (可用性)
- Konstantin Boudnik (构建)
- Mark Hamstra (构建)
- Matei Zaharia (Windows, 文档, ADD_JARS, Python, 流式处理)
- Patrick Wendell (可用性)
- Tathagata Das (流式处理修复)
- Jerry Shao (错误修复)
- S. Kumar (示例)
- Sean McNamara (Kafka 输入流, 流式处理修复)
Spark 新闻存档