3.5.5
概述
编程指南
快速入门
RDD、累加器、广播变量
SQL、DataFrame 和 Dataset
结构化流处理
Spark Streaming (DStreams)
MLlib(机器学习)
GraphX(图处理)
SparkR (R on Spark)
PySpark (Python on Spark)
API 文档
Scala
Java
Python
R
SQL,内置函数
部署
概述
提交应用程序
Spark Standalone
Mesos
YARN
Kubernetes
更多
配置
监控
调优指南
作业调度
安全
硬件配置
迁移指南
构建 Spark
贡献 Spark
第三方项目
Spark SQL 指南
入门
数据源
性能调优
分布式 SQL 引擎
PySpark 使用 Apache Arrow 的 Pandas 指南
迁移指南
SQL 参考
ANSI 兼容性
数据类型
日期时间模式
数字模式
函数
标识符
IDENTIFIER 子句
字面量
Null 语义
SQL 语法
错误条件
SQL 参考
Spark SQL 是 Apache Spark 中用于处理结构化数据的模块。 本指南是结构化查询语言 (SQL) 的参考,包括常见 SQL 用法的语法、语义、关键字和示例。 它包含以下主题的信息:
ANSI 兼容性
数据类型
日期时间模式
数字模式
函数
内置函数
标量用户定义函数 (UDF)
用户定义聚合函数 (UDAF)
与 Hive UDF/UDAF/UDTF 集成
标识符
IDENTIFIER 子句
字面量
Null 语义
SQL 语法
DDL 语句
DML 语句
数据检索语句
辅助语句