我们很荣幸地宣布,Apache Spark 赢得了 2016 CloudSort 基准测试(Daytona 和 Indy 类别)。来自南京大学、阿里巴巴集团和 Databricks Inc. 的联合团队使用 NADSort(一个基于 Spark 构建的分布式排序程序)参加了比赛,并创造了一项新的世界纪录,成为成本效益最高的 100TB 数据排序方法。
他们仅使用价值 144 美元的公共云资源对 100TB 的数据进行了排序,击败了加州大学圣地亚哥分校之前 451 美元的记录。
这增加了 Spark 在 2014 年赢得的 GraySort 记录,并验证了 Spark 是最有效的数据处理引擎。
更多信息请参阅 Spark 提交者 Reynold Xin 撰写的 Databricks 博客文章(英文),或南京大学的 新闻稿(中文)。