Spark 0.7.3 发布
Spark 0.7.3 是一个维护版本,包含一些错误修复、性能修复和新功能。 您可以将其下载为 源代码包(4 MB tar.gz),或者获取针对 Hadoop 1 / CDH3 或 CDH 4 的预构建包(61 MB tar.gz)。
我们建议所有用户更新到此维护版本。
此版本中的改进包括
- Spark shell 中的新 "添加 JAR" 功能:
spark-shell
的用户现在可以设置 ADD_JARS
环境变量,以向其集群添加 JAR 列表;这些 JAR 也会发送给 worker。
- Windows 修复: Spark 独立集群现在可以在作业结束或失败时正确地终止 executors。 此外,添加带有反斜杠的 JAR 路径现在可以正常工作。
- Streaming API 修复: Spark Streaming 的 Kafka 和 Twitter API 已更新。 在 Twitter 案例中,这是为了处理 Twitter 中已禁用的用户名/密码身份验证方法,而在 Kafka 案例中,这是为了允许接收字符串以外的消息。 请注意,这些都是破坏性的 API 更改,因为 Streaming API 仍处于 alpha 阶段。
- Python 性能: 改进了 Spark 产生 Python VM 的机制,以便在 JVM 具有较大的堆大小时更快地执行,从而加速 Python API。
- Mesos 修复: 添加到您作业的 JAR 现在将在 Mesos 中反序列化任务结果时位于类路径上。
- 错误报告: 改进了对不可序列化异常和过大的任务结果的错误报告。
- 示例: 添加了使用
updateStateByKey
的有状态流处理的示例。
- 构建: Spark Streaming 不再依赖 Twitter4J repo,这应该允许它在中国构建。
foldByKey
、流式 count
、统计方法、文档和 Web UI 中的 Bug 修复。
以下人员为该版本的发布做出了贡献
- Charles Reiss (Mesos)
- Christoph Grothaus (Windows 产生修复)
- Christopher Nguyen (bug 修复)
- James Phillpotts (Twitter 输入流)
- Jey Kottalam (Python 性能)
- Josh Rosen (可用性)
- Konstantin Boudnik (构建)
- Mark Hamstra (构建)
- Matei Zaharia (Windows, 文档, ADD_JARS, Python, streaming)
- Patrick Wendell (可用性)
- Tathagata Das (streaming 修复)
- Jerry Shao (bug 修复)
- S. Kumar (示例)
- Sean McNamara (Kafka 输入流, streaming 修复)
Spark 新闻存档