PySpark 中的错误类#

这是 PySpark 返回的常见命名错误类的列表，这些错误类定义在 error-conditions.json 中。

在编写 PySpark 错误时，开发人员必须使用列表中的错误类。如果列表中没有合适的错误类，请添加一个新的。更多信息请参考贡献错误和异常。

APPLICATION_NAME_NOT_SET#

您的配置中必须设置应用程序名称。

ARGUMENT_REQUIRED#

当 <condition> 时，参数 <arg_name> 是必需的。

ARROW_LEGACY_IPC_FORMAT#

PySpark 不支持 Arrow 旧版 IPC 格式，请取消设置 ARROW_PRE_0_15_IPC_FORMAT。

ATTRIBUTE_NOT_CALLABLE#

所提供对象 <obj_name> 中的属性 <attr_name> 不可调用。

ATTRIBUTE_NOT_SUPPORTED#

不支持属性 <attr_name>。

AXIS_LENGTH_MISMATCH#

长度不匹配：预期轴有 <expected_length> 个元素，新值有 <actual_length> 个元素。

BROADCAST_VARIABLE_NOT_LOADED#

广播变量 <variable> 未加载。

CALL_BEFORE_INITIALIZE#

在初始化 <object> 之前不支持调用 <func_name>。

CANNOT_ACCEPT_OBJECT_IN_TYPE#

<data_type> 不能接受类型为 <obj_type> 的对象 <obj_name>。

CANNOT_ACCESS_TO_DUNDER#

Dunder（双下划线）属性仅供内部使用。

CANNOT_APPLY_IN_FOR_COLUMN#

不能对列应用“in”操作符：字符串列请使用“contains”，数组列请使用“array_contains”函数。

CANNOT_BE_EMPTY#

必须至少指定一个 <item>。

CANNOT_BE_NONE#

参数 <arg_name> 不能为 None。

CANNOT_CONFIGURE_SPARK_CONNECT#

无法配置 Spark Connect 服务器：现有 [<existing_url>]，新 [<new_url>]。

CANNOT_CONFIGURE_SPARK_CONNECT_MASTER#

Spark Connect 服务器和 Spark master 不能同时配置：Spark master [<master_url>]，Spark Connect [<connect_url>]。

CANNOT_CONVERT_COLUMN_INTO_BOOL#

无法将列转换为布尔值：在构建 DataFrame 布尔表达式时，请使用“&”表示“and”，“|”表示“or”，“~”表示“not”。

CANNOT_CONVERT_TYPE#

无法将 <from_type> 转换为 <to_type>。

CANNOT_DETERMINE_TYPE#

推断后某些类型无法确定。

CANNOT_GET_BATCH_ID#

无法从 <obj_name> 获取批处理 ID。

CANNOT_INFER_ARRAY_ELEMENT_TYPE#

无法推断元素数据类型，需要以非 None 值开头的非空列表。

CANNOT_INFER_EMPTY_SCHEMA#

无法从空数据集中推断模式。

CANNOT_INFER_SCHEMA_FOR_TYPE#

无法推断类型 <data_type> 的模式。

CANNOT_INFER_TYPE_FOR_FIELD#

无法推断字段 <field_name> 的类型。

CANNOT_MERGE_TYPE#

无法合并类型 <data_type1> 和 <data_type2>。

CANNOT_OPEN_SOCKET#

无法打开套接字：<errors>。

CANNOT_PARSE_DATATYPE#

无法解析数据类型。<msg>。

CANNOT_PROVIDE_METADATA#

元数据只能为单个列提供。

CANNOT_REGISTER_UDTF#

无法注册 UDTF ‘<name>’：预期为 ‘UserDefinedTableFunction’。请确保 UDTF 正确定义为类，然后将其包装在 udtf() 函数中或使用 @udtf(…) 注解。

CANNOT_SET_TOGETHER#

<arg_list> 不应同时设置。

CANNOT_SPECIFY_RETURN_TYPE_FOR_UDF#

当 <arg_name> 是用户定义函数时，不能指定 returnType，但得到了 <return_type>。

CANNOT_WITHOUT#

不能没有 <condition2> 而 <condition1>。

CLASSIC_OPERATION_NOT_SUPPORTED_ON_DF#

在 PySpark Classic 中不支持调用属性或成员 ‘<member>’，请改用 Spark Connect。

COLLATION_INVALID_PROVIDER#

值 <provider> 不是正确的排序规则提供程序。支持的提供程序是：[<supportedProviders>]。

COLUMN_IN_LIST#

<func_name> 不允许列表中包含 Column。

CONNECT_URL_ALREADY_DEFINED#

只能设置一个 Spark Connect 客户端 URL；但是，从现有 [<existing_url>] 获取到不同的 URL [<new_url>]。

CONNECT_URL_NOT_SET#

无法创建 Spark Connect 会话，因为未设置 Spark Connect 远程 URL。请通过设置 ‘spark.remote’ 选项或 ‘SPARK_REMOTE’ 环境变量来定义远程 URL。

CONTEXT_ONLY_VALID_ON_DRIVER#

您似乎正在尝试从广播变量、操作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用，而不能在工作节点上运行的代码中使用。有关更多信息，请参阅 SPARK-5063。

CONTEXT_UNAVAILABLE_FOR_REMOTE_CLIENT#

远程客户端无法创建 SparkContext。请改为创建 SparkSession。

DATA_SOURCE_INVALID_RETURN_TYPE#

Python 数据源 ‘<name>’ 返回类型 (‘<type>’) 不受支持。预期类型：<supported_types>。

DATA_SOURCE_RETURN_SCHEMA_MISMATCH#

“read”方法的返回模式不匹配。预期：<expected> 列，实际：<actual> 列。请确保返回的值与所需的输出模式匹配。

DATA_SOURCE_TYPE_MISMATCH#

预期 <expected>，但得到 <actual>。

DIFFERENT_PANDAS_DATAFRAME#

DataFrame 不几乎相等：左侧：<left> <left_dtype> 右侧：<right> <right_dtype>

DIFFERENT_PANDAS_INDEX#

索引不几乎相等：左侧：<left> <left_dtype> 右侧：<right> <right_dtype>

DIFFERENT_PANDAS_MULTIINDEX#

MultiIndex 不几乎相等：左侧：<left> <left_dtype> 右侧：<right> <right_dtype>

DIFFERENT_PANDAS_SERIES#

Series 不几乎相等：左侧：<left> <left_dtype> 右侧：<right> <right_dtype>

DIFFERENT_ROWS#

<error_msg>

DIFFERENT_SCHEMA#

模式不匹配。— 实际 +++ 预期 <error_msg>

DISALLOWED_TYPE_FOR_CONTAINER#

参数 <arg_name>（类型：<arg_type>）只能包含 [<allowed_types>] 中的类型，得到了 <item_type>

DUPLICATED_ARTIFACT#

重复的 Artifact：<normalized_path>。Artifact 不能被覆盖。

DUPLICATED_FIELD_NAME_IN_ARROW_STRUCT#

Arrow Struct 中不允许重复的字段名，得到了 <field_names>

ERROR_OCCURRED_WHILE_CALLING#

调用 <func_name> 时发生错误：<error_msg>。

FIELD_DATA_TYPE_UNACCEPTABLE#

<data_type> 不能接受类型为 <obj_type> 的对象 <obj>。

FIELD_DATA_TYPE_UNACCEPTABLE_WITH_NAME#

<field_name>: <data_type> 不能接受类型为 <obj_type> 的对象 <obj>。

FIELD_NOT_NULLABLE#

字段不可为空，但得到了 None。

FIELD_NOT_NULLABLE_WITH_NAME#

<field_name>: 此字段不可为空，但得到了 None。

FIELD_STRUCT_LENGTH_MISMATCH#

对象的长度（<object_length>）与字段的长度（<field_length>）不匹配。

FIELD_STRUCT_LENGTH_MISMATCH_WITH_NAME#

<field_name>: 对象的长度（<object_length>）与字段的长度（<field_length>）不匹配。

FIELD_TYPE_MISMATCH#

<obj> 不是类型 <data_type> 的实例。

FIELD_TYPE_MISMATCH_WITH_NAME#

<field_name>: <obj> 不是类型 <data_type> 的实例。

HIGHER_ORDER_FUNCTION_SHOULD_RETURN_COLUMN#

函数 <func_name> 应返回 Column，但得到了 <return_type>。

INCORRECT_CONF_FOR_PROFILE#

必须将 spark.python.profile 或 spark.python.profile.memory 配置: 设置为 true 才能启用 Python 性能分析。

INDEX_NOT_POSITIVE#

索引必须为正数，得到了 ‘<index>’。

INDEX_OUT_OF_RANGE#

<arg_name> 索引超出范围，得到了 ‘<index>’。

INVALID_ARROW_UDTF_RETURN_TYPE#

Arrow 优化型 Python UDTF 的返回类型应为 ‘pandas.DataFrame’，但 ‘<func>’ 方法返回的值类型为 <return_type>，值为：<value>。

INVALID_BROADCAST_OPERATION#

广播只能在驱动程序中 <operation>。

INVALID_CALL_ON_UNRESOLVED_OBJECT#

对未解析对象调用 <func_name> 无效。

INVALID_CONNECT_URL#

Spark Connect 的 URL 无效：<detail>

INVALID_INTERVAL_CASTING#

区间 <start_field> 到 <end_field> 无效。

INVALID_ITEM_FOR_CONTAINER#

<arg_name> 中的所有项都应在 <allowed_types> 中，但得到了 <item_type>。

INVALID_JSON_DATA_TYPE_FOR_COLLATIONS#

排序规则只能应用于字符串类型，但 JSON 数据类型为 <jsonType>。

INVALID_MULTIPLE_ARGUMENT_CONDITIONS#

[{arg_names}] 不能是 <condition>。

INVALID_NDARRAY_DIMENSION#

NumPy 数组输入应为 <dimensions> 维度。

INVALID_NUMBER_OF_DATAFRAMES_IN_GROUP#

组中 DataFrame 的数量 <dataframes_in_group> 无效。

INVALID_PANDAS_UDF#

函数无效：<detail>

INVALID_PANDAS_UDF_TYPE#

<arg_name> 应该是 PandasUDFType 中的一个值，但得到了 <arg_type>

INVALID_RETURN_TYPE_FOR_ARROW_UDF#

Grouped 和 Cogrouped map Arrow UDF 应该为 <eval_type> 返回 StructType，但得到了 <return_type>。

INVALID_RETURN_TYPE_FOR_PANDAS_UDF#

Pandas UDF 应该为 <eval_type> 返回 StructType，但得到了 <return_type>。

INVALID_SESSION_UUID_ID#

参数值 <arg_name> 必须是有效的 UUID 格式：<origin>

INVALID_TIMEOUT_TIMESTAMP#

超时时间戳（<timestamp>）不能早于当前水印（<watermark>）。

INVALID_TYPE#

参数 <arg_name> 不应为 <arg_type>。

INVALID_TYPENAME_CALL#

StructField 没有 typeName。请改为在其类型上显式使用 typeName。

INVALID_TYPE_DF_EQUALITY_ARG#

参数 <arg_name> 的预期类型为 <expected_type>，但得到了类型 <actual_type>。

INVALID_UDF_EVAL_TYPE#

UDF 的 Eval 类型必须是 <eval_type>。

INVALID_UDTF_BOTH_RETURN_TYPE_AND_ANALYZE#

UDTF ‘<name>’ 无效。它同时具有返回类型和 ‘analyze’ 属性。请确保它只有返回类型或 ‘<name>’ 中的 ‘analyze’ 静态方法之一，然后重试。

INVALID_UDTF_EVAL_TYPE#

UDTF ‘<name>’ 的 eval 类型无效。它必须是 <eval_type> 中的一个。

INVALID_UDTF_HANDLER_TYPE#

UDTF 无效。函数处理程序必须是类，但得到了 ‘<type>’。请提供一个类作为函数处理程序。

INVALID_UDTF_NO_EVAL#

UDTF ‘<name>’ 无效。它没有实现必需的 ‘eval’ 方法。请在 ‘<name>’ 中实现 ‘eval’ 方法，然后重试。

INVALID_UDTF_RETURN_TYPE#

UDTF ‘<name>’ 无效。它没有指定其返回类型或实现必需的 ‘analyze’ 静态方法。请指定返回类型或在 ‘<name>’ 中实现 ‘analyze’ 静态方法，然后重试。

INVALID_WHEN_USAGE#

when() 只能应用于先前由 when() 函数生成的 Column，一旦应用 otherwise() 则不能再应用。

INVALID_WINDOW_BOUND_TYPE#

窗口边界类型无效：<window_bound_type>。

JAVA_GATEWAY_EXITED#

Java 网关进程在发送其端口号之前退出。

JVM_ATTRIBUTE_NOT_SUPPORTED#

Spark Connect 不支持属性 <attr_name>，因为它依赖于 JVM。如果您需要使用此属性，请在创建会话时不要使用 Spark Connect。有关创建常规 Spark 会话的详细信息，请访问 https://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession。

KEY_NOT_EXISTS#

键 <key> 不存在。

KEY_VALUE_PAIR_REQUIRED#

需要键值对或对列表。

LENGTH_SHOULD_BE_THE_SAME#

<arg1> 和 <arg2> 的长度应相同，但得到了 <arg1_length> 和 <arg2_length>。

MALFORMED_VARIANT#

变体二进制文件格式错误。请检查数据源是否有效。

MASTER_URL_INVALID#

Master 必须是 yarn 或以 spark、k8s 或 local 开头。

MASTER_URL_NOT_SET#

您的配置中必须设置 master URL。

MEMORY_PROFILE_INVALID_SOURCE#

内存分析器只能用于带行号的编辑器。

MISSING_LIBRARY_FOR_PROFILER#

在集群中安装 ‘memory_profiler’ 库以启用内存分析。

MISSING_VALID_PLAN#

参数 <operator> 不包含有效计划。

MIXED_TYPE_REPLACEMENT#

不支持混合类型替换。

NEGATIVE_VALUE#

参数 <arg_name> 的值必须大于或等于 0，但得到了 ‘<arg_value>’。

NOT_BOOL#

参数 <arg_name> 应为 bool 类型，但得到了 <arg_type>。

NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 bool、dict、float、int、str 或 tuple 类型，但得到了 <arg_type>。

NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_STR#

参数 <arg_name> 应为 bool、dict、float、int 或 str 类型，但得到了 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT#

参数 <arg_name> 应为 bool、float 或 int 类型，但得到了 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT_OR_LIST_OR_NONE_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 bool、float、int、list、None、str 或 tuple 类型，但得到了 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT_OR_STR#

参数 <arg_name> 应为 bool、float、int 或 str 类型，但得到了 <arg_type>。

NOT_BOOL_OR_LIST#

参数 <arg_name> 应为 bool 或 list 类型，但得到了 <arg_type>。

NOT_BOOL_OR_STR#

参数 <arg_name> 应为 bool 或 str 类型，但得到了 <arg_type>。

NOT_CALLABLE#

参数 <arg_name> 应为可调用对象，但得到了 <arg_type>。

NOT_COLUMN#

参数 <arg_name> 应为 Column 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_DATATYPE_OR_STR#

参数 <arg_name> 应为 Column、str 或 DataType 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_FLOAT_OR_INT_OR_LIST_OR_STR#

参数 <arg_name> 应为 Column、float、integer、list 或 string 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_INT#

参数 <arg_name> 应为 Column 或 int 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_INT_OR_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 Column、int、list、str 或 tuple 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_INT_OR_STR#

参数 <arg_name> 应为 Column、int 或 str 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_LIST_OR_STR#

参数 <arg_name> 应为 Column、list 或 str 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_STR#

参数 <arg_name> 应为 Column 或 str 类型，但得到了 <arg_type>。

NOT_COLUMN_OR_STR_OR_STRUCT#

参数 <arg_name> 应为 StructType、Column 或 str 类型，但得到了 <arg_type>。

NOT_DATAFRAME#

参数 <arg_name> 应为 DataFrame 类型，但得到了 <arg_type>。

NOT_DATATYPE_OR_STR#

参数 <arg_name> 应为 DataType 或 str 类型，但得到了 <arg_type>。

NOT_DICT#

参数 <arg_name> 应为 dict 类型，但得到了 <arg_type>。

NOT_EXPRESSION#

参数 <arg_name> 应为 Expression 类型，但得到了 <arg_type>。

NOT_FLOAT_OR_INT#

参数 <arg_name> 应为 float 或 int 类型，但得到了 <arg_type>。

NOT_FLOAT_OR_INT_OR_LIST_OR_STR#

参数 <arg_name> 应为 float、int、list 或 str 类型，但得到了 <arg_type>。

NOT_IMPLEMENTED#

未实现 <feature>。

NOT_INT#

参数 <arg_name> 应为 int 类型，但得到了 <arg_type>。

NOT_INT_OR_SLICE_OR_STR#

参数 <arg_name> 应为 int、slice 或 str 类型，但得到了 <arg_type>。

NOT_IN_BARRIER_STAGE#

不在屏障阶段。

NOT_ITERABLE#

<objectName> 不可迭代。

NOT_LIST#

参数 <arg_name> 应为 list 类型，但得到了 <arg_type>。

NOT_LIST_OF_COLUMN#

参数 <arg_name> 应为 list[Column]。

NOT_LIST_OF_COLUMN_OR_STR#

参数 <arg_name> 应为 list[Column]。

参数 <arg_name> 应为 Column 或 str 的列表。

NOT_LIST_OF_FLOAT_OR_INT#

参数 <arg_name> 应为 list[float, int] 类型，但得到了 <arg_type>。

NOT_LIST_OF_STR#

参数 <arg_name> 应为 list[str] 类型，但得到了 <arg_type>。

NOT_LIST_OR_NONE_OR_STRUCT#

参数 <arg_name> 应为 list、None 或 StructType 类型，但得到了 <arg_type>。

NOT_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 list、str 或 tuple 类型，但得到了 <arg_type>。

NOT_LIST_OR_TUPLE#

参数 <arg_name> 应为 list 或 tuple 类型，但得到了 <arg_type>。

NOT_NUMERIC_COLUMNS#

数值聚合函数只能应用于数值列，但得到了 <invalid_columns>。

NOT_OBSERVATION_OR_STR#

参数 <arg_name> 应为 Observation 或 str 类型，但得到了 <arg_type>。

NOT_SAME_TYPE#

参数 <arg_name1> 和 <arg_name2> 应为相同类型，但得到了 <arg_type1> 和 <arg_type2>。

NOT_STR#

参数 <arg_name> 应为 str 类型，但得到了 <arg_type>。

NOT_STRUCT#

参数 <arg_name> 应为 struct 类型，但得到了 <arg_type>。

NOT_STR_OR_LIST_OF_RDD#

参数 <arg_name> 应为 str 或 list[RDD] 类型，但得到了 <arg_type>。

NOT_STR_OR_STRUCT#

参数 <arg_name> 应为 str 或 struct 类型，但得到了 <arg_type>。

NOT_WINDOWSPEC#

参数 <arg_name> 应为 WindowSpec 类型，但得到了 <arg_type>。

NO_ACTIVE_EXCEPTION#

没有活动异常。

NO_ACTIVE_OR_DEFAULT_SESSION#

未找到活动或默认的 Spark 会话。请在运行代码之前创建一个新的 Spark 会话。

NO_ACTIVE_SESSION#

未找到活动的 Spark 会话。请在运行代码之前创建一个新的 Spark 会话。

NO_OBSERVE_BEFORE_GET#

在 get 之前应通过调用 DataFrame.observe 进行观察。

NO_SCHEMA_AND_DRIVER_DEFAULT_SCHEME#

只允许 <arg_name> 作为没有方案的路径，并且 Spark 驱动程序应使用默认方案来确定目标文件系统。

ONLY_ALLOWED_FOR_SINGLE_COLUMN#

参数 <arg_name> 只能为单个列提供。

ONLY_ALLOW_SINGLE_TRIGGER#

只允许单个触发器。

ONLY_SUPPORTED_WITH_SPARK_CONNECT#

仅 Spark Connect 支持 <feature>；但是，当前的 Spark 会话未使用 Spark Connect。

PACKAGE_NOT_INSTALLED#

必须安装 <package_name> >= <minimum_version>；但未找到。

PANDAS_API_ON_SPARK_FAIL_ON_ANSI_MODE#

Spark 上的 Pandas API 在 ANSI 模式下无法正常工作。请将 Spark 配置 ‘spark.sql.ansi.enabled’ 设置为 false。或者，将 pandas-on-spark 选项 ‘compute.fail_on_ansi_mode’ 设置为 False 以强制其工作，尽管这可能导致意外行为。

PANDAS_UDF_OUTPUT_EXCEEDS_INPUT_ROWS#

Pandas SCALAR_ITER UDF 输出的行数超过了输入行数。

PIPE_FUNCTION_EXITED#

管道函数 <func_name> 以错误代码 <error_code> 退出。

PLOT_INVALID_TYPE_COLUMN#

列 <col_name> 必须是 <valid_types> 之一才能绘图，但得到了 <col_type>。

PLOT_NOT_NUMERIC_COLUMN_ARGUMENT#

参数 <arg_name> 必须是用于绘图的数值列，但得到了 <arg_type>。

PYTHON_HASH_SEED_NOT_SET#

应通过 PYTHONHASHSEED 禁用字符串哈希的随机性。

PYTHON_STREAMING_DATA_SOURCE_RUNTIME_ERROR#

运行 Python 流式数据源失败：<msg>

PYTHON_VERSION_MISMATCH#

工作节点中的 Python 版本（<worker_version>）与驱动程序中的版本（<driver_version>）不同，PySpark 无法在不同的小版本下运行。请检查环境变量 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是否设置正确。

RDD_TRANSFORM_ONLY_VALID_ON_DRIVER#

您似乎正在尝试广播 RDD 或从操作或转换中引用 RDD。RDD 转换和操作只能由驱动程序调用，而不能在其他转换内部调用；例如，rdd1.map(lambda x: rdd2.values.count() * x) 是无效的，因为不能在 rdd1.map 转换内部执行 values 转换和 count 操作。有关更多信息，请参阅 SPARK-5063。

READ_ONLY#

<object> 是只读的。

RESPONSE_ALREADY_RECEIVED#

服务器上未找到 OPERATION_NOT_FOUND，但已收到来自它的响应。

RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDF#

返回的 pyarrow.Table 的列名与指定模式不匹配。<missing><extra>

RESULT_COLUMNS_MISMATCH_FOR_PANDAS_UDF#

返回的 pandas.DataFrame 的列名与指定模式不匹配。<missing><extra>

RESULT_LENGTH_MISMATCH_FOR_PANDAS_UDF#

返回的 pandas.DataFrame 的列数与指定模式不匹配。预期：<expected> 实际：<actual>

RESULT_LENGTH_MISMATCH_FOR_SCALAR_ITER_PANDAS_UDF#

Scalar 迭代器 pandas UDF 的输出长度应与输入长度相同；但是，输出长度为 <output_length>，输入长度为 <input_length>。

RESULT_TYPE_MISMATCH_FOR_ARROW_UDF#

列的数据类型不匹配：<mismatch>。

RETRIES_EXCEEDED#

已超出最大重试次数。

REUSE_OBSERVATION#

一个 Observation 只能与一个 DataFrame 使用一次。

SCHEMA_MISMATCH_FOR_PANDAS_UDF#

来自 pandas_udf 的结果向量长度不符合要求：预期 <expected>，实际 <actual>。

SESSION_ALREADY_EXIST#

无法启动远程 Spark 会话，因为已经有常规 Spark 会话正在运行。

SESSION_NEED_CONN_STR_OR_BUILDER#

需要连接字符串或 channelBuilder（互斥）才能创建新的 SparkSession。

SESSION_NOT_SAME#

两个数据集必须属于同一个 SparkSession。

SESSION_OR_CONTEXT_EXISTS#

不应该存在现有的 Spark 会话或 Spark Context。

SESSION_OR_CONTEXT_NOT_EXISTS#

SparkContext 或 SparkSession 应首先创建。

SLICE_WITH_STEP#

不支持带步长的切片。

STATE_NOT_EXISTS#

状态未定义或已被删除。

STOP_ITERATION_OCCURRED#

捕获到用户代码抛出的 StopIteration；任务失败：<exc>

STOP_ITERATION_OCCURRED_FROM_SCALAR_ITER_PANDAS_UDF#

pandas 迭代器 UDF 应耗尽输入迭代器。

STREAMING_CONNECT_SERIALIZATION_ERROR#

无法序列化函数 <name>。如果您访问了 Spark 会话、在函数外部定义的 DataFrame 或任何包含 Spark 会话的对象，请注意 Spark Connect 中不允许这样做。对于 foreachBatch，请使用 df.sparkSession 访问 Spark 会话，其中 df 是您 foreachBatch 函数中的第一个参数。对于 StreamingQueryListener，请使用 self.spark 访问 Spark 会话。有关详细信息，请查阅 foreachBatch 和 StreamingQueryListener 的 PySpark 文档。

TEST_CLASS_NOT_COMPILED#

<test_class_path> 不存在。Spark sql 测试类未编译。

TOO_MANY_VALUES#

预期 <item> 有 <expected> 个值，但得到了 <actual> 个。

TYPE_HINT_SHOULD_BE_SPECIFIED#

应指定 <target> 的类型提示；但得到了 <sig>。

UDF_RETURN_TYPE#

用户定义函数的返回类型应为 <expected>，但实际为 <actual>。

UDTF_ARROW_TYPE_CAST_ERROR#

无法将列 ‘<col_name>’ 的输出值，其类型为 ‘<col_type>’，转换为列的指定返回类型：‘<arrow_type>’。请检查数据类型是否匹配，然后重试。

UDTF_CONSTRUCTOR_INVALID_IMPLEMENTS_ANALYZE_METHOD#

无法评估用户定义表函数 ‘<name>’，因为其构造函数无效：函数实现了 ‘analyze’ 方法，但其构造函数有超过两个参数（包括 ‘self’ 引用）。请更新表函数，使其构造函数只接受一个 ‘self’ 参数，或一个 ‘self’ 参数加上 ‘analyze’ 方法的结果的另一个参数，然后再次尝试查询。

UDTF_CONSTRUCTOR_INVALID_NO_ANALYZE_METHOD#

无法评估用户定义表函数 ‘<name>’，因为其构造函数无效：函数未实现 ‘analyze’ 方法，且其构造函数有超过一个参数（包括 ‘self’ 引用）。请更新表函数，使其构造函数只接受一个 ‘self’ 参数，然后再次尝试查询。

UDTF_EVAL_METHOD_ARGUMENTS_DO_NOT_MATCH_SIGNATURE#

无法评估用户定义表函数 ‘<name>’，因为函数参数与 ‘eval’ 方法的预期签名不匹配（<reason>）。请更新查询，使此表函数调用提供与预期签名匹配的参数，否则更新表函数，使其 ‘eval’ 方法接受提供的参数，然后再次尝试查询。

UDTF_EXEC_ERROR#

用户定义表函数在 ‘<method_name>’ 方法中遇到错误：<error>

UDTF_INVALID_OUTPUT_ROW_TYPE#

UDTF 的 ‘<func>’ 方法中单个输出行的类型无效。每行应为元组、列表或字典，但得到了 ‘<type>’。请确保输出行的类型正确。

UDTF_RETURN_NOT_ITERABLE#

UDTF 的 ‘<func>’ 方法的返回值无效。它应为可迭代对象（例如，生成器或列表），但得到了 ‘<type>’。请确保 UDTF 返回这些类型之一。

UDTF_RETURN_SCHEMA_MISMATCH#

结果中的列数与指定模式不匹配。预期列数：<expected>，实际列数：<actual>。请确保 ‘<func>’ 方法返回的值的列数与输出模式中指定的列数相同。

UDTF_RETURN_TYPE_MISMATCH#

UDTF ‘<name>’ 的返回类型不匹配。预期为 ‘StructType’，但得到了 ‘<return_type>’。请确保返回类型是正确格式的 StructType。

UDTF_SERIALIZATION_ERROR#

无法序列化 UDTF ‘<name>’：<message>

UNEXPECTED_RESPONSE_FROM_SERVER#

来自迭代器服务器的意外响应。

UNEXPECTED_TUPLE_WITH_STRUCT#

StructType 的意外元组 <tuple>。

UNKNOWN_EXPLAIN_MODE#

未知的解释模式：‘<explain_mode>’。接受的解释模式有 ‘simple’、‘extended’、‘codegen’、‘cost’、‘formatted’。

UNKNOWN_INTERRUPT_TYPE#

未知的中断类型：‘<interrupt_type>’。接受的中断类型有 ‘all’。

UNKNOWN_RESPONSE#

未知响应：<response>。

UNKNOWN_VALUE_FOR#

<var> 的值未知。

UNSUPPORTED_DATA_TYPE#

不支持的数据类型 <data_type>。

UNSUPPORTED_DATA_TYPE_FOR_ARROW#

Arrow 不支持单一数据类型 <data_type>。

UNSUPPORTED_DATA_TYPE_FOR_ARROW_CONVERSION#

将 <data_type> 转换为 Arrow 不受支持。

UNSUPPORTED_DATA_TYPE_FOR_ARROW_VERSION#

仅 pyarrow 2.0.0 及以上版本支持 <data_type>。

UNSUPPORTED_JOIN_TYPE#

不支持的连接类型：‘<typ>’。支持的连接类型包括：<supported>。

UNSUPPORTED_LITERAL#

不支持的字面量 ‘<literal>’。

UNSUPPORTED_LOCAL_CONNECTION_STRING#

不支持使用 local 连接字符串创建新的 SparkSession。

UNSUPPORTED_NUMPY_ARRAY_SCALAR#

不支持数组标量 ‘<dtype>’ 的类型。

UNSUPPORTED_OPERATION#

不支持 <operation>。

UNSUPPORTED_PACKAGE_VERSION#

必须安装 <package_name> >= <minimum_version>；但您的版本是 <current_version>。

UNSUPPORTED_PARAM_TYPE_FOR_HIGHER_ORDER_FUNCTION#

函数 <func_name> 应仅使用位置参数或位置/关键字参数。

UNSUPPORTED_PIE_PLOT_PARAM#

饼图需要 y 列或 subplots=True。

UNSUPPORTED_PLOT_BACKEND#

不支持 <backend>，它应该是 <supported_backends> 中的一个值。

UNSUPPORTED_PLOT_BACKEND_PARAM#

<backend> 不支持将 <param> 设置为 <value>，它应该是 <supported_values> 中的一个值。

UNSUPPORTED_SIGNATURE#

不支持的签名：<signature>。

UNSUPPORTED_WITH_ARROW_OPTIMIZATION#

在 Python UDF 中启用 Arrow 优化时不支持 <feature>。禁用 ‘spark.sql.execution.pythonUDF.arrow.enabled’ 可解决此问题。

VALUE_ALLOWED#

参数 <arg_name> 的值不允许 <disallowed_value>。

VALUE_NOT_ACCESSIBLE#

任务内部无法访问值 <value>。

VALUE_NOT_ALLOWED#

参数 <arg_name> 的值必须是以下值之一：<allowed_values>。

VALUE_NOT_ANY_OR_ALL#

参数 <arg_name> 的值必须是 ‘any’ 或 ‘all’，但得到了 ‘<arg_value>’。

VALUE_NOT_BETWEEN#

参数 <arg_name> 的值必须在 <min> 和 <max> 之间。

VALUE_NOT_NON_EMPTY_STR#

参数 <arg_name> 的值必须是非空字符串，但得到了 ‘<arg_value>’。

VALUE_NOT_PEARSON#

参数 <arg_name> 的值只支持 ‘pearson’，但得到了 ‘<arg_value>’。

VALUE_NOT_PLAIN_COLUMN_REFERENCE#

<field_name> 中的值 <val> 应该是简单的列引用，例如 df.col 或 col(‘column’)。

VALUE_NOT_POSITIVE#

参数 <arg_name> 的值必须为正数，但得到了 ‘<arg_value>’。

VALUE_NOT_TRUE#

参数 <arg_name> 的值必须为 True，但得到了 ‘<arg_value>’。

VALUE_OUT_OF_BOUNDS#

参数 <arg_name> 的值必须在 <lower_bound> 和 <upper_bound> 之间（含），但得到了 <actual>

WRONG_NUM_ARGS_FOR_HIGHER_ORDER_FUNCTION#

函数 <func_name> 应该接受 1 到 3 个参数，但提供的函数接受 <num_args> 个。

WRONG_NUM_COLUMNS#

函数 <func_name> 应该至少接受 <num_cols> 列。

ZERO_INDEX#