Spark 新闻

Spark 4.0 预览版发布

为了方便社区对即将发布的 Spark 4.0 版本进行大规模测试,Apache Spark 社区发布了 Spark 4.0.0 预览版 2。此预览版在 API 或功能方面均不是稳定版本,但旨在让社区抢先体验将成为 Spark 4.0 的代码。如果您想测试该版本,请下载它,并通过邮件列表JIRA 发送反馈。文档可在此链接获取。

Spark 4.0 预览版发布

为了方便社区对即将发布的 Spark 4.0 版本进行大规模测试,Apache Spark 社区发布了 Spark 4.0 预览版。此预览版在 API 或功能方面均不是稳定版本,但旨在让社区抢先体验将成为 Spark 4.0 的代码。如果您想测试该版本,请下载它,并通过邮件列表或 JIRA 发送反馈。

Spark+AI 峰会(2020 年 6 月 22-25 日,线上)议程已发布

2020 Spark + AI 峰会的议程现已发布!峰会将于 6 月 22 日拉开帷幕。我们已将今年的峰会转变为一个全球性活动——完全线上举行,向所有人免费开放。并且峰会规模更大:延长至五天,包含 200 多场会议、四倍的培训课程以及由远见者和思想领袖带来的主题演讲。加入数万名工程师、科学家、开发者、分析师和领导者,共同塑造大数据、分析和人工智能的未来。查看完整日程注册参加!

Spark 3.0 预览版发布

为了方便社区对即将发布的 Spark 3.0 版本进行大规模测试,Apache Spark 社区发布了 Spark 3.0.0 预览版 2。此预览版在 API 或功能方面均不是稳定版本,但旨在让社区抢先体验将成为 Spark 3.0 的代码。如果您想测试该版本,请下载它,并通过邮件列表JIRA 发送反馈。文档可在此链接获取。

Spark 3.0 预览版发布

为了方便社区对即将发布的 Spark 3.0 版本进行大规模测试,Apache Spark 社区发布了 Spark 3.0 的预览版。此预览版在 API 或功能方面均不是稳定版本,但旨在让社区抢先体验将成为 Spark 3.0 的代码。如果您想测试该版本,请下载它,并通过邮件列表JIRA 发送反馈。

停止支持 Python 2 的计划

众所周知,Python 核心开发团队以及许多常用的 Python 包(如 Pandas 和 NumPy)将在 2020 年 1 月 1 日或之前停止对 Python 2 的支持。Apache Spark 自 2015 年发布 Spark 1.4 以来一直同时支持 Python 2 和 3。然而,维护 Python 2/3 兼容性日益成为负担,并实质上限制了在 Spark 中使用 Python 3 的功能。鉴于 Python 2 的生命周期结束 (EOL) 即将来临,我们也计划最终停止对 Python 2 的支持。目前的计划如下:

Spark 荣获 CloudSort 基准测试最有效引擎奖

我们很荣幸地宣布 Apache Spark 赢得了2016 年 CloudSort 基准测试(Daytona 和 Indy 两个类别)。由南京大学、阿里巴巴集团和 Databricks Inc. 组成的联合团队使用 NADSort(一个基于 Spark 构建的分布式排序程序)参加了比赛,并以最具成本效益的方式对 100TB 数据进行排序,创造了新的世界纪录。

Spark 2.0.2 发布

我们很高兴地宣布 Apache Spark 2.0.2 已发布!此维护版本包含 Spark 多个领域的修复,以及对 Structured Streaming 的 Kafka 0.10 和运行时指标支持。

Spark 峰会欧盟场的征稿已开放

Spark 峰会欧盟场的征稿现已开放!活动将于 10 月 25 日至 27 日在布鲁塞尔举行。欢迎提交与 Spark 相关的各种主题,包括应用、开发、数据科学、企业、Spark 生态系统和研究。请在 7 月 1 日前提交以供审阅。

Spark 2.0 预览版发布

为了方便社区对即将发布的 Spark 2.0 版本进行大规模测试,Apache Spark 团队发布了 Spark 2.0 的预览版。此预览版在 API 或功能方面均不是稳定版本,但旨在让社区抢先体验将成为 Spark 2.0 的代码。如果您想测试该版本,请直接下载,并通过邮件列表JIRA 发送反馈。

Spark 1.6.1 发布

我们很高兴地宣布 Spark 1.6.1 已发布!此维护版本包含 Spark 多个领域的修复,包括对实验性 Dataset API 的重大更新。

Spark 峰会旧金山场的征稿已开放

Spark 峰会旧金山场的征稿现已开放!活动将于 6 月 6 日至 8 日在旧金山举行。欢迎提交与 Spark 相关的各种主题,包括应用、开发、数据科学、商业价值、Spark 生态系统和研究。请在 2 月 29 日前提交以供审阅。

Spark 1.6.0 发布

我们很高兴地宣布 Spark 1.6.0 已发布!Spark 1.6.0 是与 API 兼容的 1.X 系列的第七个版本。随着此版本的发布,Spark 社区持续壮大,共有 248 位开发者做出了贡献!

Spark 1.5.2 发布

我们很高兴地宣布 Spark 1.5.2 已发布!此维护版本包含 Spark 多个领域的修复,包括 DataFrame API、Spark Streaming、PySpark、R、Spark SQL 和 MLlib。

Spark 1.5.1 发布

我们很高兴地宣布 Spark 1.5.1 已发布!此维护版本包含 Spark 多个领域的修复,包括 DataFrame API、Spark Streaming、PySpark、R、Spark SQL 和 MLlib。

Spark 1.5.0 发布

我们很高兴地宣布 Spark 1.5.0 已发布!Spark 1.5.0 是与 API 兼容的 1.X 系列的第六个版本。这是 Spark 迄今为止最大的版本,共有 230 位开发者贡献了 1,400 多次提交!

Spark 峰会欧洲场议程已发布

Spark 峰会欧洲场的议程现已发布,包含来自巴克莱银行、Netflix、爱思唯尔、英特尔等组织的 38 场演讲。这场在欧洲首次举行的 Spark 大会将于 2015 年 10 月 27 日至 29 日在阿姆斯特丹举行,将有完整的演讲嘉宾计划和 Spark 培训机会。更多详情可在Spark 峰会欧洲场网站上获取,您也可以在此注册参加。

Spark 1.4.1 发布

我们很高兴地宣布 Spark 1.4.1 已发布!这是一个维护版本,包含来自 85 位开发者的贡献。Spark 1.4.1 包含了 Spark 多个领域的修复,包括 DataFrame API、Spark Streaming、PySpark、Spark SQL 和 MLlib。

Spark 1.4.0 发布

我们很高兴地宣布 Spark 1.4.0 已发布!Spark 1.4.0 是与 API 兼容的 1.X 系列的第五个版本。这是 Spark 迄今为止最大的版本,共有 210 位开发者贡献了 1,000 多次提交!

宣布 Spark 峰会欧洲场

首届Spark 峰会欧洲场的摘要提交现已开放。活动将于 10 月 27 日至 29 日在阿姆斯特丹举行。欢迎提交与 Spark 相关的各种主题,包括用例和正在进行的开发。

Spark 1.3.0 发布

我们很高兴地宣布 Spark 1.3.0 已发布!Spark 1.3.0 是与 API 兼容的 1.X 系列的第三个版本。这是 Spark 迄今为止最大的版本,共有 174 位开发者贡献了 1,000 多次提交!

Spark 1.2.1 发布

我们很高兴地宣布 Spark 1.2.1 已发布!这是一个维护版本,包含来自 69 位开发者的贡献。Spark 1.2.1 包含了 Spark 多个领域的修复,包括核心 API、Streaming、PySpark、SQL、GraphX 和 MLlib。

Spark 1.2.0 发布

我们很高兴地宣布 Spark 1.2.0 已发布!Spark 1.2.0 是与 API 兼容的 1.X 系列的第三个版本。这是 Spark 迄今为止最大的版本,共有 172 位开发者贡献了 1,000 多次提交!

Spark 1.1.1 发布

我们很高兴地宣布 Spark 1.1.1 已发布!这是一个维护版本,包含来自 55 位开发者的贡献。Spark 1.1.1 包含了 Spark 多个领域的修复,包括核心 API、Streaming、PySpark、SQL、GraphX 和 MLlib。

2015 年纽约 Spark 峰会东部场征稿开放

在过去两年成功举办活动之后,Spark 峰会在 2015 年进行了扩展,将在 3 月 18-19 日在纽约和 6 月 15-17 日在旧金山分别举办活动。此次会议是与 Spark 社区的成员会面并了解最新新闻、技巧和用例的好机会。

Spark 1.1.0 发布

我们很高兴地宣布 Spark 1.1.0 已发布!Spark 1.1.0 是与 API 兼容的 1.X 系列的第二个版本。这是 Spark 迄今为止最大的版本,共有 171 位开发者做出了贡献!

Spark 1.0.2 发布

我们很高兴地宣布 Spark 1.0.2 已发布!此版本包含来自 30 位开发者的贡献。Spark 1.0.2 包含了 Spark 多个领域的修复,包括核心 API、Streaming、PySpark 和 MLlib。

Spark 0.9.2 发布

我们很高兴地宣布 Spark 0.9.2 已发布!Apache Spark 0.9.2 是一个包含错误修复的维护版本。我们建议所有 0.9.x 用户升级到此稳定版本。此版本共有 28 位开发者做出了贡献。

2014 年 Spark 峰会视频已发布

2014 年 Spark 峰会的视频和幻灯片现已全部在线提供。观看它们以获取 Spark 社区的最新消息以及基于 Spark 构建的用例和应用。此外,峰会的培训材料,包括动手练习,也均免费提供。

Spark 1.0.1 发布

我们很高兴地宣布 Spark 1.0.1 已发布!此版本包含来自 70 位开发者的贡献。Spark 1.0.0 包含了 Spark 多个领域的修复,包括核心 API、PySpark 和 MLlib。它还包括 Spark 的 (alpha) SQL 库中的新功能,包括对 JSON 数据的支持以及性能和稳定性修复。

Spark 1.0.0 发布

我们很高兴地宣布 Spark 1.0.0 已发布!Spark 1.0.0 是 1.X 系列版本中的第一个,为 Spark 的核心接口提供了 API 稳定性。这是 Spark 迄今为止最大的版本,共有 117 位开发者做出了贡献。此版本扩展了 Spark 的标准库,引入了新的 SQL 包 (Spark SQL),允许用户将 SQL 查询集成到现有的 Spark 工作流中。Spark 的机器学习库 MLlib 增加了稀疏向量支持和多项新算法。GraphX 和 Streaming 库也引入了新功能和优化。Spark 的核心引擎增加了对安全 YARN 集群的支持、一个用于提交 Spark 应用程序的统一工具,以及多项性能和稳定性改进。

Spark 峰会议程已发布

2014 年 Spark 峰会的议程现已在线提供。届时将有 50 多个组织进行演讲,这将是迄今为止规模最大的 Spark 活动,汇集了开发者和用户社区。欢迎亲临现场或在线收听,了解 Spark 的最新动态。

Spark 0.9.1 发布

我们很高兴地宣布 Spark 0.9.1 已发布!Apache Spark 0.9.1 是一个包含错误修复、性能改进、与 YARN 更好的稳定性以及 Scala 和 Python API 更高一致性的维护版本。我们建议所有 0.9.0 用户升级到此稳定版本。此版本共有 37 位开发者做出了贡献。

Spark 成为 Apache 顶级项目

Apache 软件基金会今天宣布 Spark 已从 Apache 孵化器毕业,成为 Apache 顶级项目,这标志着该项目的社区和产品在 ASF 的精英管理流程和原则下得到了良好的治理。这是社区迈出的重要一步,我们非常自豪能与用户分享这一消息,因为我们完成了 Spark 向 Apache 的迁移。在 ASF 的新闻稿中阅读更多关于 Spark 过去一年的发展以及贡献者和用户的信息。

Spark 0.9.0 发布

我们很高兴地宣布 Spark 0.9.0 已发布!Spark 0.9.0 是一个重要版本,也是 Spark 迄今为止最大的版本,共有 83 位开发者做出了贡献。此版本扩展了 Spark 的标准库,引入了新的图计算包 (GraphX) 并为机器学习和流处理包添加了多项新功能。它还对核心引擎进行了重大改进,包括外部聚合、用于长期运行应用程序的简化高可用性 (H/A) 模式以及强化的 YARN 支持。

Spark 0.8.1 发布

我们刚刚发布了 Spark 0.8.1 版本,这是一个针对 Spark Scala 2.9 版本的维护和性能版本。0.8.1 包含了对 YARN 2.2 的支持、独立调度器的高可用模式、shuffle 优化以及许多其他改进。我们建议所有用户更新到此版本。请访问发布说明了解新功能,或立即下载该版本。

2013 年 Spark 峰会圆满结束

于 2013 年 12 月上旬在旧金山市中心举行的2013 年 Spark 峰会圆满成功!来自 13 个国家和 180 多家公司的 450 多名 Spark 开发者和爱好者前来向 Spark、Shark、Spark Streaming 及相关项目的项目负责人和生产用户学习用例、最新进展以及 Spark 社区路线图。

宣布首届 Spark 峰会:2013 年 12 月 2 日

我们很高兴地宣布首届 Spark 峰会将于 2013 年 12 月 2 日在旧金山市中心举行。届时将有 Spark、Shark、Spark Streaming 及相关项目的主要生产用户发表演讲。同时,您还可以了解项目发展方向,并学习如何在各种应用程序中使用 Spark 技术栈。此次峰会由 Spark 社区的领先组织共同组织和赞助。

Spark 0.8.0 发布

我们很荣幸地宣布 Apache Spark 0.8.0 已发布。Spark 0.8.0 是一个重要版本,包含许多新功能和可用性改进。这也是我们在 Apache 孵化器下的第一个版本。它是 Spark 迄今为止最大的版本,共有 67 位开发者和 24 家公司做出了贡献。主要新功能包括扩展的监控框架和 UI、一个机器学习库以及对在 YARN 中运行 Spark 的支持。

Spark 用户调查和“技术支持”页面

随着我们继续开发 Spark,我们非常希望能从用户那里获得反馈,并了解您希望我们接下来从事的工作。我们认为一个好的方法是进行调查——我们希望定期进行。如果您有几分钟时间参与,请在此填写调查问卷。非常感谢您的时间。

伯克利 AMP 训练营注册开放

想亲身学习如何使用 Spark、Shark、GraphX 及相关技术吗?AMP Lab 将于 8 月 29 日和 30 日在伯克利举办为期两天的培训研讨会。研讨会将包括教程、用户演讲以及超过四小时的动手练习。AMP Camp 网站现已开放注册,每人费用为 250 美元。我们建议尽早报名,因为去年的研讨会已售罄。

Spark 邮件列表迁至 Apache

作为 Spark 项目最近迁至 Apache 的一部分,我们计划本月将邮件列表迁移到 Apache 基础设施,以便现有 Google 群组将于 2013 年 9 月 1 日变为只读。要继续接收 Spark 的更新或参与开发讨论,请订阅以下列表:

大多数用户可能希望订阅用户列表,但有兴趣为项目贡献代码的个人也应该订阅开发列表。

Spark 0.7.3 发布

我们刚刚发布了 Spark 0.7.3 版本,这是一个维护版本,包含多项修复,包括 streaming API 更新和向 spark-shell 会话添加 JAR 的新功能。我们建议所有用户更新到此版本。请访问发布说明了解新功能,或立即下载该版本。

Spark 被 Apache 孵化器接受

Spark 最近被接受进入Apache 孵化器,这将成为该项目的长期归宿。虽然将源代码和问题跟踪迁移到 Apache 需要一些时间,但我们很高兴能加入 Apache 社区。请继续关注本网站,获取有关项目托管如何变化的更新。

Spark 0.7.2 发布

我们很高兴地宣布 Spark 0.7.2 已发布,这是一个新的维护版本,包含多项错误修复和改进,以及新的代码示例和 API 功能。我们建议所有用户更新到此版本。请访问发布说明了解新功能,或立即下载该版本。

Spark 截屏视频已发布

我们发布了系列短片动手视频培训课程的前两部截屏视频,我们将继续发布这些视频,以帮助新用户在几分钟内启动和运行 Spark。

Strata 练习现已在线提供

在今年的 Strata 大会上,AMP 实验室举办了为期一整天的 Spark、Shark 和 Spark Streaming 教程,包括在 Amazon EC2 上的在线练习。这些练习现已在线提供,让您可以在 EC2 集群上以自己的节奏使用真实数据学习 Spark 和 Shark。它们是学习这些系统的绝佳资源。您还可以在线找到 Strata 教程的幻灯片,以及我们在八月于伯克利举办的 AMP Camp 研讨会的视频

Amazon EMR 的 Spark/Shark 教程

本周末,亚马逊发布了一篇文章和代码,使得在 Elastic MapReduce 上启动 Spark 和 Shark 变得容易。该文章包含如何在 S3 数据上运行交互式 Scala 命令和 Shark 的 SQL 查询的示例。请访问亚马逊文章了解详情。我们非常高兴,因为据我们所知,这使得 Spark 成为第一个可以使用 EMR 启动的非 Hadoop 引擎。

Spark 0.6.2 发布

我们最近发布了 Spark 0.6.2,这是一个新的 Spark 版本。这是一个维护版本,包含多项错误修复和可用性改进(请参阅发布说明)。我们建议所有用户升级到此版本。

首届 Spark 开发交流会视频已发布

12 月 18 日,我们举办了系列 Spark 开发交流会的首场活动,旨在面向有兴趣学习 Spark 代码库并为项目做出贡献的人士。报名人数超过我们预期,有 80 多人报名,64 人参加。首场交流会是Spark 内部机制介绍。感谢一位参与者,现在 YouTube 上有交流会视频。我们还发布了幻灯片。未来将会有更多关于 Spark 和 Shark 的开发交流会。

Spark 登上新闻

最近,我们看到 Spark 在新闻中获得了大量报道。我想列出一些最近的文章,供有兴趣了解更多信息的读者参考。

另外,二月份在O’Reilly Strata 大会上将有一整天的 Spark 和 Shark 教程。其中包括周二上午三小时的Spark、Shark 和 BDAS 介绍,以及三小时的动手练习环节

Spark 0.6.1 和 0.5.2 发布

今天我们发布了 Spark 的两个维护版本:0.6.10.5.2。它们都包含了重要的错误修复以及一些新功能,例如支持针对 Hadoop 2 分发版进行构建。我们建议用户更新到其分支的最新版本;对于新用户,我们建议使用0.6.1

最新新闻

归档