4.0.0
概览
编程指南
快速入门
RDD、累加器、广播变量
SQL、DataFrame 和 Dataset
结构化流
Spark Streaming (DStream)
MLlib (机器学习)
GraphX (图处理)
SparkR (Spark 上的 R)
PySpark (Spark 上的 Python)
API 文档
Python
Scala
Java
R
SQL、内置函数
部署
概览
提交应用程序
Spark Standalone
YARN
Kubernetes
更多
配置
监控
调优指南
作业调度
安全
硬件配置
迁移指南
构建 Spark
贡献 Spark
第三方项目
Spark SQL 指南
入门
数据源
性能调优
分布式 SQL 引擎
结合 Apache Arrow 使用 Pandas 的 PySpark 指南
迁移指南
SQL 参考
ANSI 兼容性
数据类型
日期时间模式
数字模式
运算符
函数
标识符
IDENTIFIER 子句
字面量
Null 语义
SQL 语法
错误条件
SQL 参考
Spark SQL 是 Apache Spark 用于处理结构化数据的模块。本指南是结构化查询语言 (SQL) 的参考文档,包含常见 SQL 用法的语法、语义、关键字和示例。它包含以下主题的信息:
ANSI 兼容性
数据类型
日期时间模式
数字模式
运算符
函数
内置函数
标量用户定义函数 (UDF)
用户定义聚合函数 (UDAF)
与 Hive UDF/UDAF/UDTF 的集成
函数调用
标识符
IDENTIFIER 子句
字面量
Null 语义
SQL 语法
DDL 语句
DML 语句
数据检索语句
辅助语句
管道语法