Spark 新闻

Spark 4.0 的预览版本

为了能够进行大规模的社区测试即将发布的 Spark 4.0 版本,Apache Spark 社区发布了 Spark 4.0.0 preview2 版本。此预览版在 API 或功能方面都不是一个稳定的版本,但是旨在使社区可以尽早试用将成为 Spark 4.0 的代码。如果您想测试该版本,请下载它,并使用邮件列表JIRA发送反馈。 文档可从链接获得。

Spark 4.0 的预览版本

为了能够进行大规模的社区测试即将发布的 Spark 4.0 版本,Apache Spark 社区发布了 Spark 4.0 的预览版本。此预览版在 API 或功能方面都不是一个稳定的版本,但是旨在使社区可以尽早试用将成为 Spark 4.0 的代码。如果您想测试该版本,请下载它,并使用邮件列表或 JIRA 发送反馈。

Spark+AI 峰会(2020年6月22日至25日,虚拟)议程发布

Spark + AI Summit 2020 的议程现已发布! 峰会将于6月22日开始。 我们已将今年的峰会转变为全球性活动 - 完全虚拟,并向所有人免费开放。 峰会现在规模更大:延长至五天,包含200多个会议,4倍的培训以及远见卓识者和思想领袖的主题演讲。 加入数万名工程师,科学家,开发人员,分析师和领导者,共同塑造大数据,分析和AI的未来。 查看完整的时间表注册参加!

Spark 3.0 预览版发布

为了使即将发布的 Spark 3.0 版本能够进行大规模的社区测试,Apache Spark 社区发布了 Spark 3.0.0 preview2 版本。 此预览版在API或功能方面都不是稳定的版本,但旨在使社区尽早尝试将成为Spark 3.0的代码。 如果您想测试该版本,请下载它,并使用邮件列表JIRA发送反馈。 该文档可在链接中找到。

Spark 3.0 预览版发布

为了使即将发布的 Spark 3.0 版本能够进行大规模的社区测试,Apache Spark 社区发布了 Spark 3.0 的预览版。 此预览版在API或功能方面都不是稳定的版本,但旨在使社区尽早尝试将成为Spark 3.0的代码。 如果您想测试该版本,请下载它,并使用邮件列表JIRA发送反馈。

计划删除 Python 2 支持

正如你们许多人已经知道的那样,Python 核心开发团队和许多使用的 Python 软件包(例如 Pandas 和 NumPy)将在 2020/01/01 或之前删除 Python 2 支持。 自 2015 年发布的 Spark 1.4 以来,Apache Spark 一直支持 Python 2 和 3。 但是,维护 Python 2/3 兼容性日益成为负担,并且从根本上限制了在 Spark 中使用 Python 3 功能。 鉴于 Python 2 的寿命终止 (EOL) 即将到来,我们计划最终也放弃 Python 2 支持。 当前的计划如下

Spark 赢得 CloudSort 基准测试,成为最有效的引擎

我们很荣幸地宣布,Apache Spark 赢得了 2016 CloudSort 基准测试(Daytona 和 Indy 类别)。 南京大学、阿里巴巴集团和 Databricks 公司的联合团队使用 NADSort(一个基于 Spark 构建的分布式排序程序)参加了比赛,并创造了新的世界纪录,成为对 100TB 数据进行排序的最具成本效益的方式。

Spark 2.0.2 发布

我们很高兴地宣布Apache Spark 2.0.2 已经发布!此维护版本包含对 Spark 多个领域的修复,以及对 Kafka 0.10 和结构化流的运行时指标支持。

Spark 1.6.3 发布

我们很高兴地宣布Spark 1.6.3 已经发布!此维护版本包含对 Spark 多个领域的修复。

Spark 1.6.2 发布

我们很高兴地宣布Spark 1.6.2 已经发布!此维护版本包含对 Spark 多个领域的修复。

Spark 欧洲峰会征集演讲

现在可以为Spark 欧洲峰会提交演讲稿了! 该活动将于 10 月 25 日至 27 日在布鲁塞尔举行。 欢迎提交各种与 Spark 相关的主题,包括应用程序、开发、数据科学、企业、Spark 生态系统和研究。 请在 7 月 1 日之前提交,以便获得考虑。

Spark 2.0 预览版发布

为了让社区能够广泛测试即将发布的 Spark 2.0 版本,Apache Spark 团队发布了 Spark 2.0 预览版。 这个预览版在 API 或功能方面都不是稳定的版本,但旨在让社区尽早访问代码,以便尝试将成为 Spark 2.0 的代码。 如果您想测试该版本,只需下载它,然后使用邮件列表JIRA发送反馈。

Spark 1.6.1 发布

我们很高兴地宣布Spark 1.6.1 已经发布!此维护版本包含对 Spark 多个领域的修复,包括对实验性 Dataset API 的重大更新。

Spark 旧金山峰会开始征集演讲

现在可以为Spark 旧金山峰会提交演讲稿了!该活动将于 6 月 6 日至 8 日在旧金山举行。 欢迎提交各种与 Spark 相关的主题,包括应用程序、开发、数据科学、商业价值、Spark 生态系统和研究。 请在 2 月 29 日之前提交,以便获得考虑。

Spark 1.6.0 发布

我们很高兴地宣布Spark 1.6.0 已经发布!Spark 1.6.0 是 API 兼容的 1.X 系列中的第七个版本。 随着此版本的发布,Spark 社区持续发展壮大,贡献者达到 248 位开发人员!

Spark 东部峰会 2016 的 CFP 即将截止!

现在可以为Spark 东部峰会提交演讲稿了! 该活动将于 2 月 16 日至 18 日在纽约市举行。 欢迎提交各种与 Spark 相关的主题,包括应用程序、开发、数据科学、企业和研究。 请在 11 月 22 日之前提交,以便获得考虑。

Spark 1.5.2 发布

我们很高兴地宣布Spark 1.5.2 已经发布!此维护版本包含对 Spark 多个领域的修复,包括 DataFrame API、Spark Streaming、PySpark、R、Spark SQL 和 MLlib。

Spark 1.5.1 发布

我们很高兴地宣布Spark 1.5.1 已经发布!此维护版本包含对 Spark 多个领域的修复,包括 DataFrame API、Spark Streaming、PySpark、R、Spark SQL 和 MLlib。

Spark 1.5.0 发布

我们很高兴地宣布Spark 1.5.0 已经发布!Spark 1.5.0 是 API 兼容的 1.X 系列中的第六个版本。 它是 Spark 最大的版本,来自 230 位开发人员的贡献超过 1,400 次提交!

Spark 欧洲峰会日程已发布

Spark 欧洲峰会的日程现已发布,其中包括来自 Barclays、Netflix、Elsevier、Intel 等组织的 38 个演讲。 首届欧洲 Spark 会议将于 2015 年 10 月 27 日至 29 日在阿姆斯特丹举行,届时将有完整的演讲者计划以及 Spark 培训机会。 更多详细信息请访问Spark 欧洲峰会网站,您还可以在该网站上注册参加。

Spark 1.4.1 发布

我们很高兴地宣布Spark 1.4.1 已经发布! 这是一个维护版本,包含来自 85 位开发人员的贡献。 Spark 1.4.1 包含对 Spark 多个领域的修复,包括 DataFrame API、Spark Streaming、PySpark、Spark SQL 和 MLlib。

Spark 峰会 2015 视频已发布

Spark 峰会 2015 的所有视频和幻灯片现在都已在线提供! 这些演讲包括技术路线图讨论、Spark 组件的深入研究以及基于 Spark 构建的用例。

Spark 1.4.0 发布

我们很高兴地宣布Spark 1.4.0 已经发布!Spark 1.4.0 是 API 兼容的 1.X 系列中的第五个版本。 它是 Spark 最大的版本,来自 210 位开发人员的贡献超过 1,000 次提交!

宣布 Spark 欧洲峰会

现在可以为有史以来的第一个Spark 欧洲峰会提交摘要了。 该活动将于 10 月 27 日至 29 日在阿姆斯特丹举行。 欢迎提交各种与 Spark 相关的主题,包括用例和正在进行的开发。

Spark 1.3.0 发布

我们很高兴地宣布Spark 1.3.0 已经发布!Spark 1.3.0 是 API 兼容的 1.X 系列中的第三个版本。 它是 Spark 最大的版本,来自 174 位开发人员的贡献超过 1,000 次提交!

Spark 1.2.1 发布

我们很高兴地宣布 Spark 1.2.1 发布!这是一个维护版本,包含来自 69 位开发者的贡献。 Spark 1.2.1 包含对 Spark 多个领域的修复,包括核心 API、Streaming、PySpark、SQL、GraphX 和 MLlib。

Spark 1.2.0 发布

我们很高兴地宣布 Spark 1.2.0 发布! Spark 1.2.0 是 API 兼容的 1.X 系列的第三个版本。 它是 Spark 有史以来最大的版本,有来自 172 位开发者的贡献和超过 1,000 次提交!

Spark 1.1.1 发布

我们很高兴地宣布 Spark 1.1.1 发布!这是一个维护版本,包含来自 55 位开发者的贡献。 Spark 1.1.1 包含对 Spark 多个领域的修复,包括核心 API、Streaming、PySpark、SQL、GraphX 和 MLlib。

Spark Summit East 2015 开放注册

Spark Summit East 2015现已开放注册,将于 3 月 18 日和 19 日在纽约市举行。 这次会议将是一个很好的机会,可以结识来自 Spark 社区的人们,还可以参加有关 Spark 的培训研讨会。 如果您之前没有参加过 Spark Summit,您可以在 Spark Summit 网站上找到以前活动的资料。

纽约 Spark Summit East 2015 开放提交

在过去两年成功举办活动之后,Spark Summit 会议已扩展到 2015 年,分别于 3 月 18-19 日在纽约和 6 月 15-17 日在旧金山举办活动。 这次会议是一个很好的机会,可以结识来自 Spark 社区的人们,并了解最新的新闻、技巧和用例。

Spark 1.1.0 发布

我们很高兴地宣布 Spark 1.1.0 发布! Spark 1.1.0 是 API 兼容的 1.X 系列的第二个版本。 它是 Spark 有史以来最大的版本,有来自 171 位开发者的贡献!

Spark 1.0.2 发布

我们很高兴地宣布 Spark 1.0.2 发布! 这个版本包含来自 30 位开发者的贡献。 Spark 1.0.2 包含对 Spark 多个领域的修复,包括核心 API、Streaming、PySpark 和 MLlib。

Spark 0.9.2 发布

我们很高兴地宣布 Spark 0.9.2 发布! Apache Spark 0.9.2 是一个包含错误修复的维护版本。 我们建议所有 0.9.x 用户升级到此稳定版本。 此版本的贡献来自 28 位开发者。

Spark Summit 2014 视频发布

Spark Summit 2014 的视频和幻灯片现在都已在线提供。 观看它们以了解来自 Spark 社区的最新消息,以及构建在 Spark 之上的用例和应用程序。 此外,来自峰会的 培训材料,包括动手练习,也都可以免费获得。

Spark 1.0.1 发布

我们很高兴地宣布 Spark 1.0.1 发布! 这个版本包含来自 70 位开发者的贡献。 Spark 1.0.0 包含对 Spark 多个领域的修复,包括核心 API、PySpark 和 MLlib。 它还包括 Spark (alpha) SQL 库中的新功能,包括对 JSON 数据的支持以及性能和稳定性修复。

Spark 1.0.0 发布

我们很高兴地宣布 Spark 1.0.0 发布! Spark 1.0.0 是 1.X 系列中的第一个版本,为 Spark 的核心接口提供 API 稳定性。 它是 Spark 有史以来最大的版本,有来自 117 位开发者的贡献。 此版本扩展了 Spark 的标准库,引入了一个新的 SQL 包 (Spark SQL),使用户可以将 SQL 查询集成到现有的 Spark 工作流程中。 MLlib,Spark 的机器学习库,扩展了对稀疏向量的支持和几个新算法。 GraphX 和 Streaming 库也引入了新功能和优化。 Spark 的核心引擎增加了对安全 YARN 集群的支持、用于提交 Spark 应用程序的统一工具以及多项性能和稳定性改进。

Spark Summit 议程发布

Spark Summit 2014 会议的议程现在已在线提供。 凭借来自 50 多个组织的演讲,它将是迄今为止规模最大的 Spark 活动,将开发者和用户社区聚集在一起。 加入我们的线下活动或在线收听,以了解 Spark 的最新动态。

Spark 0.9.1 发布

我们很高兴地宣布 Spark 0.9.1 发布! Apache Spark 0.9.1 是一个包含错误修复、性能改进、更好的 YARN 稳定性和改进的 Scala 和 Python API 对等性的维护版本。 我们建议所有 0.9.0 用户升级到此稳定版本。 此版本的贡献来自 37 位开发者。

Spark 成为顶级 Apache 项目

Apache 软件基金会今天宣布 Spark 已从 Apache Incubator 毕业,成为顶级 Apache 项目,这表明该项目的社区和产品在 ASF 的精英管理流程和原则下得到了良好的管理。 这对社区来说是一个重要的步骤,我们非常自豪地与用户分享这一消息,因为我们完成了 Spark 向 Apache 的转移。 在 ASF 的 新闻稿中了解更多关于 Spark 在过去一年中的增长以及贡献者和用户的信息。

Spark 0.9.0 发布

我们很高兴地宣布 Spark 0.9.0 发布! Spark 0.9.0 是一个主要版本,也是 Spark 有史以来最大的版本,有来自 83 位开发者的贡献。 此版本扩展了 Spark 的标准库,引入了一个新的图计算包 (GraphX),并向机器学习和流处理包添加了几个新功能。 它还对核心引擎进行了重大改进,包括外部聚合、用于长期运行的应用程序的简化 H/A 模式以及强化的 YARN 支持。

Spark 0.8.1 发布

我们刚刚发布了 Spark Release 0.8.1,它是 Spark 的 Scala 2.9 版本的维护和性能版本。 0.8.1 包括对 YARN 2.2 的支持、独立调度程序的HA模式、shuffle 优化以及许多其他改进。 我们建议所有用户更新到此版本。 访问 发行说明以阅读有关新功能的介绍,或立即下载该版本。

Spark Summit 2013 圆满结束

于 2013 年 12 月初在旧金山市中心举行的 Spark Summit 2013 取得了圆满成功! 来自 13 个国家和 180 多家公司的 450 多名 Spark 开发者和爱好者齐聚一堂,从 Spark、Shark、Spark Streaming 和相关项目的项目负责人和生产用户那里了解用例、最新发展以及 Spark 社区路线图。

宣布首届 Spark Summit:2013 年 12 月 2 日

我们很高兴地宣布2013 年 12 月 2 日在旧金山市中心举办首届 Spark Summit。 来听听 Spark、Shark、Spark Streaming 和相关项目的关键生产用户的意见。 还可以了解开发的未来方向,并学习如何在各种应用程序中使用 Spark 堆栈。 峰会由 Spark 社区中的领先组织组织和赞助。

Spark 0.8.0 发布

我们很自豪地宣布发布 Apache Spark 0.8.0。 Spark 0.8.0 是一个主要版本,包括许多新功能和可用性改进。 这也是我们在 Apache incubator 下的第一个版本。 这是迄今为止最大的 Spark 版本,有来自 67 位开发者和 24 家公司的贡献。 主要新功能包括扩展的监控框架和 UI、机器学习库以及对在 YARN 中运行 Spark 的支持。

Spark 用户调查和“Powered By”页面

在我们继续开发 Spark 的过程中,我们希望获得用户的反馈,并了解您希望我们接下来做什么。 我们认为一个好的方法是进行调查——我们希望定期进行。 如果您有几分钟时间参与,请在此填写调查。 非常感谢您的时间。

伯克利 AMP Camp 训练营开放注册

想亲自学习如何使用 Spark、Shark、GraphX 及相关技术吗?AMP 实验室将于 8 月 29 日和 30 日在伯克利举办为期两天的培训研讨会。研讨会将包括教程、用户演讲和超过四个小时的实践练习。 现在可以在 AMP Camp 网站上注册,价格为每人 250 美元。我们建议尽早注册,因为去年的研讨会已经售罄。

Spark 邮件列表迁移到 Apache

作为 Spark 项目最近迁移到 Apache 的一部分,我们计划在本月将邮件列表迁移到 Apache 基础设施,以便现有的 Google 论坛将于 2013 年 9 月 1 日变为只读。要继续接收有关 Spark 的更新或参与开发讨论,请订阅以下列表

大多数用户可能需要用户列表,但有兴趣为项目贡献代码的个人也应订阅开发列表。

Spark 0.7.3 发布

我们刚刚发布了 Spark 0.7.3,这是一个维护版本,其中包含多个修复程序,包括流式 API 更新和向 spark-shell 会话添加 JAR 的新功能。我们建议所有用户更新到此版本。访问发行说明以了解新功能,或立即下载该版本。

Spark 被 Apache Incubator 接受

Spark 最近被 接受 进入 Apache Incubator,这将作为该项目的长期所在地。虽然将源代码和问题跟踪迁移到 Apache 需要一些时间,但我们很高兴加入 Apache 社区。请继续关注本网站,了解项目托管方式的更新。

Spark 0.7.2 发布

我们很高兴地宣布发布 Spark 0.7.2,这是一个新的维护版本,其中包括多个错误修复和改进,以及新的代码示例和 API 功能。我们建议所有用户更新到此版本。前往发行说明以了解新功能,或立即下载该版本。

Spark 截屏视频发布

我们发布了前两个截屏视频,这是一个简短的实践视频培训课程系列中的一部分,我们将发布这些课程以帮助新用户在几分钟内开始使用 Spark。

Strata 练习现在可以在线获取

在今年的 Strata 会议上,AMP 实验室举办了一整天关于 Spark、Shark 和 Spark Streaming 的教程,包括在 Amazon EC2 上的在线练习。这些练习现在可以在线获取,让您可以在具有真实数据的 EC2 集群上按照自己的节奏学习 Spark 和 Shark。它们是学习系统的重要资源。您还可以找到 幻灯片 来自 Strata 教程在线,以及 视频 来自我们在 8 月在伯克利举办的 AMP Camp 研讨会。

Amazon EMR 的 Spark/Shark 教程

本周末,亚马逊发布了一篇 文章 和代码,可以轻松地在 Elastic MapReduce 上启动 Spark 和 Shark。该文章包括如何在 S3 中的数据上从 Shark 运行交互式 Scala 命令和 SQL 查询的示例。前往 Amazon 文章 了解详细信息。我们非常兴奋,因为据我们所知,这使 Spark 成为第一个可以使用 EMR 启动的非 Hadoop 引擎。

Spark 0.6.2 发布

我们最近发布了 Spark 0.6.2,这是一个新版本的 Spark。这是一个维护版本,其中包括多个错误修复和可用性改进(请参阅发行说明)。我们建议所有用户升级到此版本。

来自第一次 Spark 开发聚会的视频

12 月 18 日,我们为有兴趣学习 Spark 代码库并为项目做出贡献的人举办了第一次 Spark 开发聚会系列。需求量远远超过我们的预期,有超过 80 人报名,64 人参加。第一次聚会是 Spark 内部结构的介绍。感谢一位与会者,现在 YouTube 上有一个 聚会视频。我们还发布了 幻灯片。期待将来看到更多关于 Spark 和 Shark 的开发聚会。

Spark 在新闻中

最近,我们在新闻中看到了很多关于 Spark 的报道。我想列出一些最新的文章,供有兴趣了解更多信息的读者阅读。

在其他新闻中,2 月份的 O’Reilly Strata 会议 将举办一整天关于 Spark 和 Shark 的教程。其中包括星期二上午的三个小时 Spark、Shark 和 BDAS 简介,以及三个小时的 实践练习课程

Spark 0.6.1 和 0.5.2 发布

今天,我们发布了两个 Spark 的维护版本:0.6.10.5.2。它们都包含重要的错误修复以及一些新功能,例如能够针对 Hadoop 2 发行版进行构建。我们建议用户更新到其分支的最新版本;对于新用户,我们推荐 0.6.1

最新消息

存档