函数
Spark SQL 提供两种函数功能来满足广泛的用户需求:内置函数和用户定义函数 (UDF)。内置函数是 Spark SQL 预定义的常用例程,可以在 内置函数 API 文档中找到所有函数的完整列表。当系统内置函数不足以执行所需任务时,UDF 允许用户定义自己的函数。
内置函数
Spark SQL 有一些用于聚合、数组/映射、日期/时间戳和 JSON 数据的常用内置函数类别。本节介绍这些函数的用法和描述。
标量函数
类似聚合的函数
生成器函数
UDF (用户定义函数)
用户定义函数 (UDF) 是 Spark SQL 的一项功能,允许用户在系统内置函数不足以执行所需任务时定义自己的函数。要在 Spark SQL 中使用 UDF,用户必须先定义函数,然后向 Spark 注册函数,最后调用已注册的函数。用户定义函数可以作用于单个行,也可以作用于多行。Spark SQL 还支持集成现有的 Hive UDF、UDAF 和 UDTF 实现。