我们很荣幸地宣布 Spark 赢得了 2014 Gray Sort 基准测试 (Daytona 100TB 类别)。来自 Databricks 的一个团队,包括 Spark 提交者 Reynold Xin、Xiangrui Meng 和 Matei Zaharia,使用 Spark 参加了基准测试。Spark 与 UCSD 的 Themis 团队并列第一,共同创造了排序的新世界纪录。
他们使用 Spark 在 23 分钟内使用 206 台 EC2 i2.8xlarge 机器对 100TB 的数据进行了排序。之前的世界纪录是 72 分钟,由一个包含 2100 个节点的 Hadoop MapReduce 集群创造。这意味着 Spark 使用 10 倍少的机器,排序速度提高了 3 倍。所有排序都在磁盘 (HDFS) 上进行,没有使用 Spark 的内存缓存。
在排序方面胜过大型 Hadoop MapReduce 集群,不仅验证了 Spark 社区的愿景和工作,还表明 Spark 正在履行其承诺,成为一个更快、更可扩展的数据处理引擎,适用于各种规模的数据。
有关更多信息,请参阅 Reynold Xin 撰写的 Databricks 博客文章。