函数

Spark SQL 提供了两种函数特性,以满足广泛的用户需求:内置函数和用户定义函数(UDF)。内置函数是 Spark SQL 预定义的常用例程,函数的完整列表可以在内置函数 API 文档中找到。当系统的内置函数不足以执行所需的任务时,UDF 允许用户定义自己的函数。

内置函数

Spark SQL 具有一些常用内置函数的类别,用于聚合、数组/映射、日期/时间戳和 JSON 数据。本小节介绍这些函数的使用方法和描述。

标量函数

类聚合函数

生成器函数

UDF (用户定义函数)

用户定义函数 (UDF) 是 Spark SQL 的一项功能,允许用户在系统内置函数不足以执行所需任务时定义自己的函数。要在 Spark SQL 中使用 UDF,用户必须首先定义函数,然后向 Spark 注册该函数,最后调用注册的函数。用户定义函数可以对单行起作用,也可以同时对多行起作用。 Spark SQL 还支持集成 Hive 现有 UDF、UDAF 和 UDTF 实现。