我们很自豪地宣布,Spark 赢得了 2014 年 Gray Sort 基准测试 (Daytona 100TB 类别)。由 Databricks 的团队(包括 Spark 提交者 Reynold Xin、Xiangrui Meng 和 Matei Zaharia)使用 Spark 参加了该基准测试。Spark 与 UCSD 的 Themis 团队并列,共同创造了排序领域新的世界纪录。
他们使用 Spark 在 23 分钟内,利用 206 台 EC2 i2.8xlarge 机器对 100TB 数据进行了排序。之前的世界纪录是 72 分钟,由一个拥有 2100 个节点的 Hadoop MapReduce 集群创造。这意味着 Spark 使用少 10 倍的机器,以快 3 倍的速度对相同数据进行了排序。所有排序操作都在磁盘上进行 (HDFS),没有使用 Spark 的内存缓存。
在排序方面超越大型 Hadoop MapReduce 集群,不仅验证了 Spark 社区的愿景和工作成果,也表明 Spark 正在兑现其作为更快、更具扩展性的数据处理引擎的承诺,适用于各种规模的数据处理。
欲了解更多信息,请参阅由 Reynold Xin 撰写的 Databricks 博客文章。