Spark 赢得 Daytona Gray Sort 100TB 排序基准测试

我们很自豪地宣布，Spark 赢得了 2014 年 Gray Sort 基准测试 (Daytona 100TB 类别)。由 Databricks 的团队（包括 Spark 提交者 Reynold Xin、Xiangrui Meng 和 Matei Zaharia）使用 Spark 参加了该基准测试。Spark 与 UCSD 的 Themis 团队并列，共同创造了排序领域新的世界纪录。

他们使用 Spark 在 23 分钟内，利用 206 台 EC2 i2.8xlarge 机器对 100TB 数据进行了排序。之前的世界纪录是 72 分钟，由一个拥有 2100 个节点的 Hadoop MapReduce 集群创造。这意味着 Spark 使用少 10 倍的机器，以快 3 倍的速度对相同数据进行了排序。所有排序操作都在磁盘上进行 (HDFS)，没有使用 Spark 的内存缓存。

在排序方面超越大型 Hadoop MapReduce 集群，不仅验证了 Spark 社区的愿景和工作成果，也表明 Spark 正在兑现其作为更快、更具扩展性的数据处理引擎的承诺，适用于各种规模的数据处理。

欲了解更多信息，请参阅由 Reynold Xin 撰写的 Databricks 博客文章。

Spark 新闻存档

Spark 赢得 Daytona Gray Sort 100TB 排序基准测试

最新新闻