函数
Spark SQL 提供两种函数功能以满足广泛的用户需求:内置函数和用户定义函数 (UDF)。内置函数是 Spark SQL 预定义的常用例程,函数的完整列表可在内置函数 API 文档中找到。当系统内置函数不足以执行所需任务时,UDF 允许用户定义自己的函数。
内置函数
Spark SQL 包含一些常用的内置函数类别,用于聚合、数组/映射、日期/时间戳和 JSON 数据。本小节介绍这些函数的用法和说明。
标量函数
类聚合函数
生成器函数
UDF (用户定义函数)
用户定义函数 (UDF) 是 Spark SQL 的一项功能,允许用户在系统内置函数不足以执行所需任务时定义自己的函数。要在 Spark SQL 中使用 UDF,用户必须首先定义函数,然后向 Spark 注册该函数,最后调用已注册的函数。用户定义函数可以作用于单行,也可以同时作用于多行。Spark SQL 还支持集成现有的 Hive UDF、UDAF 和 UDTF 实现。