大规模数据分析的统一引擎

入门

什么是 Apache Spark

Apache Spark 是一款多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
简单。
快速。
可扩展。
统一。
主要功能
Batch/streaming data
批处理/流式数据
使用您喜欢的语言(Python、SQL、Scala、Java 或 R)统一处理批处理和实时流式数据。
SQL analytics
SQL 分析
执行快速、分布式的 ANSI SQL 查询,用于仪表盘和临时报告。运行速度比大多数数据仓库更快。
Data science at scale
大规模数据科学
在 PB 级数据上执行探索性数据分析 (EDA),而无需进行降采样。
Machine Learning
机器学习
在笔记本电脑上训练机器学习算法,并使用相同的代码将其扩展到数千台机器的容错集群。
最广泛使用的可扩展计算引擎
包括 80% 的财富 500 强企业在内的数千家公司使用 Apache Spark
来自行业和学术界的 2000 多位开源项目贡献者。
生态系统
Apache Spark 与您最喜欢的框架集成,帮助将其扩展到数千台机器。
数据科学和机器学习
SQL 分析和 BI
存储和基础设施
Spark SQL 引擎:幕后
Apache Spark 基于先进的分布式 SQL 引擎,用于大规模数据。
自适应查询执行

Spark SQL 在运行时调整执行计划,例如自动设置 reducer 数量和连接算法。

支持 ANSI SQL

使用您已经熟悉的相同 SQL。

结构化和非结构化数据

Spark SQL 可处理结构化表格和非结构化数据,例如 JSON 或图像。

TPC-DS 1TB 无统计信息,使用和不使用自适应查询执行
将 TPC-DS 查询加速高达 8 倍
加入社区
Spark 拥有一个蓬勃发展的开源社区,来自世界各地的贡献者正在构建功能、文档并帮助其他用户。