PySpark 中的错误类#

这是 PySpark 返回的常见命名错误类的列表,这些错误类定义在 error-conditions.json 中。

在编写 PySpark 错误时,开发人员必须使用列表中的错误类。如果列表中没有合适的错误类,请添加一个新的。更多信息请参考 贡献错误和异常

APPLICATION_NAME_NOT_SET#

您的配置中必须设置应用程序名称。

ARGUMENT_REQUIRED#

当 <condition> 时,参数 <arg_name> 是必需的。

ARROW_LEGACY_IPC_FORMAT#

PySpark 不支持 Arrow 旧版 IPC 格式,请取消设置 ARROW_PRE_0_15_IPC_FORMAT。

ATTRIBUTE_NOT_CALLABLE#

所提供对象 <obj_name> 中的属性 <attr_name> 不可调用。

ATTRIBUTE_NOT_SUPPORTED#

不支持属性 <attr_name>

AXIS_LENGTH_MISMATCH#

长度不匹配:预期轴有 <expected_length> 个元素,新值有 <actual_length> 个元素。

BROADCAST_VARIABLE_NOT_LOADED#

广播变量 <variable> 未加载。

CALL_BEFORE_INITIALIZE#

在初始化 <object> 之前不支持调用 <func_name>

CANNOT_ACCEPT_OBJECT_IN_TYPE#

<data_type> 不能接受类型为 <obj_type> 的对象 <obj_name>

CANNOT_ACCESS_TO_DUNDER#

Dunder(双下划线)属性仅供内部使用。

CANNOT_APPLY_IN_FOR_COLUMN#

不能对列应用“in”操作符:字符串列请使用“contains”,数组列请使用“array_contains”函数。

CANNOT_BE_EMPTY#

必须至少指定一个 <item>。

CANNOT_BE_NONE#

参数 <arg_name> 不能为 None。

CANNOT_CONFIGURE_SPARK_CONNECT#

无法配置 Spark Connect 服务器:现有 [<existing_url>],新 [<new_url>]。

CANNOT_CONFIGURE_SPARK_CONNECT_MASTER#

Spark Connect 服务器和 Spark master 不能同时配置:Spark master [<master_url>],Spark Connect [<connect_url>]。

CANNOT_CONVERT_COLUMN_INTO_BOOL#

无法将列转换为布尔值:在构建 DataFrame 布尔表达式时,请使用“&”表示“and”,“|”表示“or”,“~”表示“not”。

CANNOT_CONVERT_TYPE#

无法将 <from_type> 转换为 <to_type>。

CANNOT_DETERMINE_TYPE#

推断后某些类型无法确定。

CANNOT_GET_BATCH_ID#

无法从 <obj_name> 获取批处理 ID。

CANNOT_INFER_ARRAY_ELEMENT_TYPE#

无法推断元素数据类型,需要以非 None 值开头的非空列表。

CANNOT_INFER_EMPTY_SCHEMA#

无法从空数据集中推断模式。

CANNOT_INFER_SCHEMA_FOR_TYPE#

无法推断类型 <data_type> 的模式。

CANNOT_INFER_TYPE_FOR_FIELD#

无法推断字段 <field_name> 的类型。

CANNOT_MERGE_TYPE#

无法合并类型 <data_type1><data_type2>

CANNOT_OPEN_SOCKET#

无法打开套接字:<errors>。

CANNOT_PARSE_DATATYPE#

无法解析数据类型。<msg>。

CANNOT_PROVIDE_METADATA#

元数据只能为单个列提供。

CANNOT_REGISTER_UDTF#

无法注册 UDTF ‘<name>’:预期为 ‘UserDefinedTableFunction’。请确保 UDTF 正确定义为类,然后将其包装在 udtf() 函数中或使用 @udtf(…) 注解。

CANNOT_SET_TOGETHER#

<arg_list> 不应同时设置。

CANNOT_SPECIFY_RETURN_TYPE_FOR_UDF#

<arg_name> 是用户定义函数时,不能指定 returnType,但得到了 <return_type>。

CANNOT_WITHOUT#

不能没有 <condition2> 而 <condition1>。

CLASSIC_OPERATION_NOT_SUPPORTED_ON_DF#

在 PySpark Classic 中不支持调用属性或成员 ‘<member>’,请改用 Spark Connect。

COLLATION_INVALID_PROVIDER#

值 <provider> 不是正确的排序规则提供程序。支持的提供程序是:[<supportedProviders>]。

COLUMN_IN_LIST#

<func_name> 不允许列表中包含 Column。

CONNECT_URL_ALREADY_DEFINED#

只能设置一个 Spark Connect 客户端 URL;但是,从现有 [<existing_url>] 获取到不同的 URL [<new_url>]。

CONNECT_URL_NOT_SET#

无法创建 Spark Connect 会话,因为未设置 Spark Connect 远程 URL。请通过设置 ‘spark.remote’ 选项或 ‘SPARK_REMOTE’ 环境变量来定义远程 URL。

CONTEXT_ONLY_VALID_ON_DRIVER#

您似乎正在尝试从广播变量、操作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用,而不能在工作节点上运行的代码中使用。有关更多信息,请参阅 SPARK-5063。

CONTEXT_UNAVAILABLE_FOR_REMOTE_CLIENT#

远程客户端无法创建 SparkContext。请改为创建 SparkSession。

DATA_SOURCE_INVALID_RETURN_TYPE#

Python 数据源 ‘<name>’ 返回类型 (‘<type>’) 不受支持。预期类型:<supported_types>。

DATA_SOURCE_RETURN_SCHEMA_MISMATCH#

“read”方法的返回模式不匹配。预期:<expected> 列,实际:<actual> 列。请确保返回的值与所需的输出模式匹配。

DATA_SOURCE_TYPE_MISMATCH#

预期 <expected>,但得到 <actual>。

DIFFERENT_PANDAS_DATAFRAME#

DataFrame 不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_PANDAS_INDEX#

索引不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_PANDAS_MULTIINDEX#

MultiIndex 不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_PANDAS_SERIES#

Series 不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_ROWS#

<error_msg>

DIFFERENT_SCHEMA#

模式不匹配。— 实际 +++ 预期 <error_msg>

DISALLOWED_TYPE_FOR_CONTAINER#

参数 <arg_name>(类型:<arg_type>)只能包含 [<allowed_types>] 中的类型,得到了 <item_type>

DUPLICATED_ARTIFACT#

重复的 Artifact:<normalized_path>。Artifact 不能被覆盖。

DUPLICATED_FIELD_NAME_IN_ARROW_STRUCT#

Arrow Struct 中不允许重复的字段名,得到了 <field_names>

ERROR_OCCURRED_WHILE_CALLING#

调用 <func_name> 时发生错误:<error_msg>。

FIELD_DATA_TYPE_UNACCEPTABLE#

<data_type> 不能接受类型为 <obj_type> 的对象 <obj>。

FIELD_DATA_TYPE_UNACCEPTABLE_WITH_NAME#

<field_name>: <data_type> 不能接受类型为 <obj_type> 的对象 <obj>。

FIELD_NOT_NULLABLE#

字段不可为空,但得到了 None。

FIELD_NOT_NULLABLE_WITH_NAME#

<field_name>: 此字段不可为空,但得到了 None。

FIELD_STRUCT_LENGTH_MISMATCH#

对象的长度(<object_length>)与字段的长度(<field_length>)不匹配。

FIELD_STRUCT_LENGTH_MISMATCH_WITH_NAME#

<field_name>: 对象的长度(<object_length>)与字段的长度(<field_length>)不匹配。

FIELD_TYPE_MISMATCH#

<obj> 不是类型 <data_type> 的实例。

FIELD_TYPE_MISMATCH_WITH_NAME#

<field_name>: <obj> 不是类型 <data_type> 的实例。

HIGHER_ORDER_FUNCTION_SHOULD_RETURN_COLUMN#

函数 <func_name> 应返回 Column,但得到了 <return_type>。

INCORRECT_CONF_FOR_PROFILE#

必须将 spark.python.profilespark.python.profile.memory 配置

设置为 true 才能启用 Python 性能分析。

INDEX_NOT_POSITIVE#

索引必须为正数,得到了 ‘<index>’。

INDEX_OUT_OF_RANGE#

<arg_name> 索引超出范围,得到了 ‘<index>’。

INVALID_ARROW_UDTF_RETURN_TYPE#

Arrow 优化型 Python UDTF 的返回类型应为 ‘pandas.DataFrame’,但 ‘<func>’ 方法返回的值类型为 <return_type>,值为:<value>。

INVALID_BROADCAST_OPERATION#

广播只能在驱动程序中 <operation>。

INVALID_CALL_ON_UNRESOLVED_OBJECT#

对未解析对象调用 <func_name> 无效。

INVALID_CONNECT_URL#

Spark Connect 的 URL 无效:<detail>

INVALID_INTERVAL_CASTING#

区间 <start_field> 到 <end_field> 无效。

INVALID_ITEM_FOR_CONTAINER#

<arg_name> 中的所有项都应在 <allowed_types> 中,但得到了 <item_type>。

INVALID_JSON_DATA_TYPE_FOR_COLLATIONS#

排序规则只能应用于字符串类型,但 JSON 数据类型为 <jsonType>。

INVALID_MULTIPLE_ARGUMENT_CONDITIONS#

[{arg_names}] 不能是 <condition>。

INVALID_NDARRAY_DIMENSION#

NumPy 数组输入应为 <dimensions> 维度。

INVALID_NUMBER_OF_DATAFRAMES_IN_GROUP#

组中 DataFrame 的数量 <dataframes_in_group> 无效。

INVALID_PANDAS_UDF#

函数无效:<detail>

INVALID_PANDAS_UDF_TYPE#

<arg_name> 应该是 PandasUDFType 中的一个值,但得到了 <arg_type>

INVALID_RETURN_TYPE_FOR_ARROW_UDF#

Grouped 和 Cogrouped map Arrow UDF 应该为 <eval_type> 返回 StructType,但得到了 <return_type>。

INVALID_RETURN_TYPE_FOR_PANDAS_UDF#

Pandas UDF 应该为 <eval_type> 返回 StructType,但得到了 <return_type>。

INVALID_SESSION_UUID_ID#

参数值 <arg_name> 必须是有效的 UUID 格式:<origin>

INVALID_TIMEOUT_TIMESTAMP#

超时时间戳(<timestamp>)不能早于当前水印(<watermark>)。

INVALID_TYPE#

参数 <arg_name> 不应为 <arg_type>。

INVALID_TYPENAME_CALL#

StructField 没有 typeName。请改为在其类型上显式使用 typeName。

INVALID_TYPE_DF_EQUALITY_ARG#

参数 <arg_name> 的预期类型为 <expected_type>,但得到了类型 <actual_type>。

INVALID_UDF_EVAL_TYPE#

UDF 的 Eval 类型必须是 <eval_type>。

INVALID_UDTF_BOTH_RETURN_TYPE_AND_ANALYZE#

UDTF ‘<name>’ 无效。它同时具有返回类型和 ‘analyze’ 属性。请确保它只有返回类型或 ‘<name>’ 中的 ‘analyze’ 静态方法之一,然后重试。

INVALID_UDTF_EVAL_TYPE#

UDTF ‘<name>’ 的 eval 类型无效。它必须是 <eval_type> 中的一个。

INVALID_UDTF_HANDLER_TYPE#

UDTF 无效。函数处理程序必须是类,但得到了 ‘<type>’。请提供一个类作为函数处理程序。

INVALID_UDTF_NO_EVAL#

UDTF ‘<name>’ 无效。它没有实现必需的 ‘eval’ 方法。请在 ‘<name>’ 中实现 ‘eval’ 方法,然后重试。

INVALID_UDTF_RETURN_TYPE#

UDTF ‘<name>’ 无效。它没有指定其返回类型或实现必需的 ‘analyze’ 静态方法。请指定返回类型或在 ‘<name>’ 中实现 ‘analyze’ 静态方法,然后重试。

INVALID_WHEN_USAGE#

when() 只能应用于先前由 when() 函数生成的 Column,一旦应用 otherwise() 则不能再应用。

INVALID_WINDOW_BOUND_TYPE#

窗口边界类型无效:<window_bound_type>。

JAVA_GATEWAY_EXITED#

Java 网关进程在发送其端口号之前退出。

JVM_ATTRIBUTE_NOT_SUPPORTED#

Spark Connect 不支持属性 <attr_name>,因为它依赖于 JVM。如果您需要使用此属性,请在创建会话时不要使用 Spark Connect。有关创建常规 Spark 会话的详细信息,请访问 https://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession

KEY_NOT_EXISTS#

<key> 不存在。

KEY_VALUE_PAIR_REQUIRED#

需要键值对或对列表。

LENGTH_SHOULD_BE_THE_SAME#

<arg1> 和 <arg2> 的长度应相同,但得到了 <arg1_length> 和 <arg2_length>。

MALFORMED_VARIANT#

变体二进制文件格式错误。请检查数据源是否有效。

MASTER_URL_INVALID#

Master 必须是 yarn 或以 spark、k8s 或 local 开头。

MASTER_URL_NOT_SET#

您的配置中必须设置 master URL。

MEMORY_PROFILE_INVALID_SOURCE#

内存分析器只能用于带行号的编辑器。

MISSING_LIBRARY_FOR_PROFILER#

在集群中安装 ‘memory_profiler’ 库以启用内存分析。

MISSING_VALID_PLAN#

参数 <operator> 不包含有效计划。

MIXED_TYPE_REPLACEMENT#

不支持混合类型替换。

NEGATIVE_VALUE#

参数 <arg_name> 的值必须大于或等于 0,但得到了 ‘<arg_value>’。

NOT_BOOL#

参数 <arg_name> 应为 bool 类型,但得到了 <arg_type>。

NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 bool、dict、float、int、str 或 tuple 类型,但得到了 <arg_type>。

NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_STR#

参数 <arg_name> 应为 bool、dict、float、int 或 str 类型,但得到了 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT#

参数 <arg_name> 应为 bool、float 或 int 类型,但得到了 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT_OR_LIST_OR_NONE_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 bool、float、int、list、None、str 或 tuple 类型,但得到了 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT_OR_STR#

参数 <arg_name> 应为 bool、float、int 或 str 类型,但得到了 <arg_type>。

NOT_BOOL_OR_LIST#

参数 <arg_name> 应为 bool 或 list 类型,但得到了 <arg_type>。

NOT_BOOL_OR_STR#

参数 <arg_name> 应为 bool 或 str 类型,但得到了 <arg_type>。

NOT_CALLABLE#

参数 <arg_name> 应为可调用对象,但得到了 <arg_type>。

NOT_COLUMN#

参数 <arg_name> 应为 Column 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_DATATYPE_OR_STR#

参数 <arg_name> 应为 Column、str 或 DataType 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_FLOAT_OR_INT_OR_LIST_OR_STR#

参数 <arg_name> 应为 Column、float、integer、list 或 string 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_INT#

参数 <arg_name> 应为 Column 或 int 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_INT_OR_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 Column、int、list、str 或 tuple 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_INT_OR_STR#

参数 <arg_name> 应为 Column、int 或 str 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_LIST_OR_STR#

参数 <arg_name> 应为 Column、list 或 str 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_STR#

参数 <arg_name> 应为 Column 或 str 类型,但得到了 <arg_type>。

NOT_COLUMN_OR_STR_OR_STRUCT#

参数 <arg_name> 应为 StructType、Column 或 str 类型,但得到了 <arg_type>。

NOT_DATAFRAME#

参数 <arg_name> 应为 DataFrame 类型,但得到了 <arg_type>。

NOT_DATATYPE_OR_STR#

参数 <arg_name> 应为 DataType 或 str 类型,但得到了 <arg_type>。

NOT_DICT#

参数 <arg_name> 应为 dict 类型,但得到了 <arg_type>。

NOT_EXPRESSION#

参数 <arg_name> 应为 Expression 类型,但得到了 <arg_type>。

NOT_FLOAT_OR_INT#

参数 <arg_name> 应为 float 或 int 类型,但得到了 <arg_type>。

NOT_FLOAT_OR_INT_OR_LIST_OR_STR#

参数 <arg_name> 应为 float、int、list 或 str 类型,但得到了 <arg_type>。

NOT_IMPLEMENTED#

未实现 <feature>。

NOT_INT#

参数 <arg_name> 应为 int 类型,但得到了 <arg_type>。

NOT_INT_OR_SLICE_OR_STR#

参数 <arg_name> 应为 int、slice 或 str 类型,但得到了 <arg_type>。

NOT_IN_BARRIER_STAGE#

不在屏障阶段。

NOT_ITERABLE#

<objectName> 不可迭代。

NOT_LIST#

参数 <arg_name> 应为 list 类型,但得到了 <arg_type>。

NOT_LIST_OF_COLUMN#

参数 <arg_name> 应为 list[Column]。

NOT_LIST_OF_COLUMN_OR_STR#

参数 <arg_name> 应为 list[Column]。

参数 <arg_name> 应为 Column 或 str 的列表。

NOT_LIST_OF_FLOAT_OR_INT#

参数 <arg_name> 应为 list[float, int] 类型,但得到了 <arg_type>。

NOT_LIST_OF_STR#

参数 <arg_name> 应为 list[str] 类型,但得到了 <arg_type>。

NOT_LIST_OR_NONE_OR_STRUCT#

参数 <arg_name> 应为 list、None 或 StructType 类型,但得到了 <arg_type>。

NOT_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 list、str 或 tuple 类型,但得到了 <arg_type>。

NOT_LIST_OR_TUPLE#

参数 <arg_name> 应为 list 或 tuple 类型,但得到了 <arg_type>。

NOT_NUMERIC_COLUMNS#

数值聚合函数只能应用于数值列,但得到了 <invalid_columns>。

NOT_OBSERVATION_OR_STR#

参数 <arg_name> 应为 Observation 或 str 类型,但得到了 <arg_type>。

NOT_SAME_TYPE#

参数 <arg_name1><arg_name2> 应为相同类型,但得到了 <arg_type1> 和 <arg_type2>。

NOT_STR#

参数 <arg_name> 应为 str 类型,但得到了 <arg_type>。

NOT_STRUCT#

参数 <arg_name> 应为 struct 类型,但得到了 <arg_type>。

NOT_STR_OR_LIST_OF_RDD#

参数 <arg_name> 应为 str 或 list[RDD] 类型,但得到了 <arg_type>。

NOT_STR_OR_STRUCT#

参数 <arg_name> 应为 str 或 struct 类型,但得到了 <arg_type>。

NOT_WINDOWSPEC#

参数 <arg_name> 应为 WindowSpec 类型,但得到了 <arg_type>。

NO_ACTIVE_EXCEPTION#

没有活动异常。

NO_ACTIVE_OR_DEFAULT_SESSION#

未找到活动或默认的 Spark 会话。请在运行代码之前创建一个新的 Spark 会话。

NO_ACTIVE_SESSION#

未找到活动的 Spark 会话。请在运行代码之前创建一个新的 Spark 会话。

NO_OBSERVE_BEFORE_GET#

get 之前应通过调用 DataFrame.observe 进行观察。

NO_SCHEMA_AND_DRIVER_DEFAULT_SCHEME#

只允许 <arg_name> 作为没有方案的路径,并且 Spark 驱动程序应使用默认方案来确定目标文件系统。

ONLY_ALLOWED_FOR_SINGLE_COLUMN#

参数 <arg_name> 只能为单个列提供。

ONLY_ALLOW_SINGLE_TRIGGER#

只允许单个触发器。

ONLY_SUPPORTED_WITH_SPARK_CONNECT#

仅 Spark Connect 支持 <feature>;但是,当前的 Spark 会话未使用 Spark Connect。

PACKAGE_NOT_INSTALLED#

必须安装 <package_name> >= <minimum_version>;但未找到。

PANDAS_API_ON_SPARK_FAIL_ON_ANSI_MODE#

Spark 上的 Pandas API 在 ANSI 模式下无法正常工作。请将 Spark 配置 ‘spark.sql.ansi.enabled’ 设置为 false。或者,将 pandas-on-spark 选项 ‘compute.fail_on_ansi_mode’ 设置为 False 以强制其工作,尽管这可能导致意外行为。

PANDAS_UDF_OUTPUT_EXCEEDS_INPUT_ROWS#

Pandas SCALAR_ITER UDF 输出的行数超过了输入行数。

PIPE_FUNCTION_EXITED#

管道函数 <func_name> 以错误代码 <error_code> 退出。

PLOT_INVALID_TYPE_COLUMN#

列 <col_name> 必须是 <valid_types> 之一才能绘图,但得到了 <col_type>。

PLOT_NOT_NUMERIC_COLUMN_ARGUMENT#

参数 <arg_name> 必须是用于绘图的数值列,但得到了 <arg_type>。

PYTHON_HASH_SEED_NOT_SET#

应通过 PYTHONHASHSEED 禁用字符串哈希的随机性。

PYTHON_STREAMING_DATA_SOURCE_RUNTIME_ERROR#

运行 Python 流式数据源失败:<msg>

PYTHON_VERSION_MISMATCH#

工作节点中的 Python 版本(<worker_version>)与驱动程序中的版本(<driver_version>)不同,PySpark 无法在不同的小版本下运行。请检查环境变量 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是否设置正确。

RDD_TRANSFORM_ONLY_VALID_ON_DRIVER#

您似乎正在尝试广播 RDD 或从操作或转换中引用 RDD。RDD 转换和操作只能由驱动程序调用,而不能在其他转换内部调用;例如,rdd1.map(lambda x: rdd2.values.count() * x) 是无效的,因为不能在 rdd1.map 转换内部执行 values 转换和 count 操作。有关更多信息,请参阅 SPARK-5063。

READ_ONLY#

<object> 是只读的。

RESPONSE_ALREADY_RECEIVED#

服务器上未找到 OPERATION_NOT_FOUND,但已收到来自它的响应。

RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDF#

返回的 pyarrow.Table 的列名与指定模式不匹配。<missing><extra>

RESULT_COLUMNS_MISMATCH_FOR_PANDAS_UDF#

返回的 pandas.DataFrame 的列名与指定模式不匹配。<missing><extra>

RESULT_LENGTH_MISMATCH_FOR_PANDAS_UDF#

返回的 pandas.DataFrame 的列数与指定模式不匹配。预期:<expected> 实际:<actual>

RESULT_LENGTH_MISMATCH_FOR_SCALAR_ITER_PANDAS_UDF#

Scalar 迭代器 pandas UDF 的输出长度应与输入长度相同;但是,输出长度为 <output_length>,输入长度为 <input_length>。

RESULT_TYPE_MISMATCH_FOR_ARROW_UDF#

列的数据类型不匹配:<mismatch>。

RETRIES_EXCEEDED#

已超出最大重试次数。

REUSE_OBSERVATION#

一个 Observation 只能与一个 DataFrame 使用一次。

SCHEMA_MISMATCH_FOR_PANDAS_UDF#

来自 pandas_udf 的结果向量长度不符合要求:预期 <expected>,实际 <actual>。

SESSION_ALREADY_EXIST#

无法启动远程 Spark 会话,因为已经有常规 Spark 会话正在运行。

SESSION_NEED_CONN_STR_OR_BUILDER#

需要连接字符串或 channelBuilder(互斥)才能创建新的 SparkSession。

SESSION_NOT_SAME#

两个数据集必须属于同一个 SparkSession。

SESSION_OR_CONTEXT_EXISTS#

不应该存在现有的 Spark 会话或 Spark Context。

SESSION_OR_CONTEXT_NOT_EXISTS#

SparkContext 或 SparkSession 应首先创建。

SLICE_WITH_STEP#

不支持带步长的切片。

STATE_NOT_EXISTS#

状态未定义或已被删除。

STOP_ITERATION_OCCURRED#

捕获到用户代码抛出的 StopIteration;任务失败:<exc>

STOP_ITERATION_OCCURRED_FROM_SCALAR_ITER_PANDAS_UDF#

pandas 迭代器 UDF 应耗尽输入迭代器。

STREAMING_CONNECT_SERIALIZATION_ERROR#

无法序列化函数 <name>。如果您访问了 Spark 会话、在函数外部定义的 DataFrame 或任何包含 Spark 会话的对象,请注意 Spark Connect 中不允许这样做。对于 foreachBatch,请使用 df.sparkSession 访问 Spark 会话,其中 df 是您 foreachBatch 函数中的第一个参数。对于 StreamingQueryListener,请使用 self.spark 访问 Spark 会话。有关详细信息,请查阅 foreachBatchStreamingQueryListener 的 PySpark 文档。

TEST_CLASS_NOT_COMPILED#

<test_class_path> 不存在。Spark sql 测试类未编译。

TOO_MANY_VALUES#

预期 <item> 有 <expected> 个值,但得到了 <actual> 个。

TYPE_HINT_SHOULD_BE_SPECIFIED#

应指定 <target> 的类型提示;但得到了 <sig>。

UDF_RETURN_TYPE#

用户定义函数的返回类型应为 <expected>,但实际为 <actual>。

UDTF_ARROW_TYPE_CAST_ERROR#

无法将列 ‘<col_name>’ 的输出值,其类型为 ‘<col_type>’,转换为列的指定返回类型:‘<arrow_type>’。请检查数据类型是否匹配,然后重试。

UDTF_CONSTRUCTOR_INVALID_IMPLEMENTS_ANALYZE_METHOD#

无法评估用户定义表函数 ‘<name>’,因为其构造函数无效:函数实现了 ‘analyze’ 方法,但其构造函数有超过两个参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数只接受一个 ‘self’ 参数,或一个 ‘self’ 参数加上 ‘analyze’ 方法的结果的另一个参数,然后再次尝试查询。

UDTF_CONSTRUCTOR_INVALID_NO_ANALYZE_METHOD#

无法评估用户定义表函数 ‘<name>’,因为其构造函数无效:函数未实现 ‘analyze’ 方法,且其构造函数有超过一个参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数只接受一个 ‘self’ 参数,然后再次尝试查询。

UDTF_EVAL_METHOD_ARGUMENTS_DO_NOT_MATCH_SIGNATURE#

无法评估用户定义表函数 ‘<name>’,因为函数参数与 ‘eval’ 方法的预期签名不匹配(<reason>)。请更新查询,使此表函数调用提供与预期签名匹配的参数,否则更新表函数,使其 ‘eval’ 方法接受提供的参数,然后再次尝试查询。

UDTF_EXEC_ERROR#

用户定义表函数在 ‘<method_name>’ 方法中遇到错误:<error>

UDTF_INVALID_OUTPUT_ROW_TYPE#

UDTF 的 ‘<func>’ 方法中单个输出行的类型无效。每行应为元组、列表或字典,但得到了 ‘<type>’。请确保输出行的类型正确。

UDTF_RETURN_NOT_ITERABLE#

UDTF 的 ‘<func>’ 方法的返回值无效。它应为可迭代对象(例如,生成器或列表),但得到了 ‘<type>’。请确保 UDTF 返回这些类型之一。

UDTF_RETURN_SCHEMA_MISMATCH#

结果中的列数与指定模式不匹配。预期列数:<expected>,实际列数:<actual>。请确保 ‘<func>’ 方法返回的值的列数与输出模式中指定的列数相同。

UDTF_RETURN_TYPE_MISMATCH#

UDTF ‘<name>’ 的返回类型不匹配。预期为 ‘StructType’,但得到了 ‘<return_type>’。请确保返回类型是正确格式的 StructType。

UDTF_SERIALIZATION_ERROR#

无法序列化 UDTF ‘<name>’:<message>

UNEXPECTED_RESPONSE_FROM_SERVER#

来自迭代器服务器的意外响应。

UNEXPECTED_TUPLE_WITH_STRUCT#

StructType 的意外元组 <tuple>。

UNKNOWN_EXPLAIN_MODE#

未知的解释模式:‘<explain_mode>’。接受的解释模式有 ‘simple’、‘extended’、‘codegen’、‘cost’、‘formatted’。

UNKNOWN_INTERRUPT_TYPE#

未知的中断类型:‘<interrupt_type>’。接受的中断类型有 ‘all’。

UNKNOWN_RESPONSE#

未知响应:<response>。

UNKNOWN_VALUE_FOR#

<var> 的值未知。

UNSUPPORTED_DATA_TYPE#

不支持的数据类型 <data_type>

UNSUPPORTED_DATA_TYPE_FOR_ARROW#

Arrow 不支持单一数据类型 <data_type>。

UNSUPPORTED_DATA_TYPE_FOR_ARROW_CONVERSION#

将 <data_type> 转换为 Arrow 不受支持。

UNSUPPORTED_DATA_TYPE_FOR_ARROW_VERSION#

仅 pyarrow 2.0.0 及以上版本支持 <data_type>。

UNSUPPORTED_JOIN_TYPE#

不支持的连接类型:‘<typ>’。支持的连接类型包括:<supported>。

UNSUPPORTED_LITERAL#

不支持的字面量 ‘<literal>’。

UNSUPPORTED_LOCAL_CONNECTION_STRING#

不支持使用 local 连接字符串创建新的 SparkSession。

UNSUPPORTED_NUMPY_ARRAY_SCALAR#

不支持数组标量 ‘<dtype>’ 的类型。

UNSUPPORTED_OPERATION#

不支持 <operation>。

UNSUPPORTED_PACKAGE_VERSION#

必须安装 <package_name> >= <minimum_version>;但您的版本是 <current_version>。

UNSUPPORTED_PARAM_TYPE_FOR_HIGHER_ORDER_FUNCTION#

函数 <func_name> 应仅使用位置参数或位置/关键字参数。

UNSUPPORTED_PIE_PLOT_PARAM#

饼图需要 y 列或 subplots=True

UNSUPPORTED_PLOT_BACKEND#

不支持 <backend>,它应该是 <supported_backends> 中的一个值。

UNSUPPORTED_PLOT_BACKEND_PARAM#

<backend> 不支持将 <param> 设置为 <value>,它应该是 <supported_values> 中的一个值。

UNSUPPORTED_SIGNATURE#

不支持的签名:<signature>。

UNSUPPORTED_WITH_ARROW_OPTIMIZATION#

在 Python UDF 中启用 Arrow 优化时不支持 <feature>。禁用 ‘spark.sql.execution.pythonUDF.arrow.enabled’ 可解决此问题。

VALUE_ALLOWED#

参数 <arg_name> 的值不允许 <disallowed_value>。

VALUE_NOT_ACCESSIBLE#

任务内部无法访问值 <value>

VALUE_NOT_ALLOWED#

参数 <arg_name> 的值必须是以下值之一:<allowed_values>。

VALUE_NOT_ANY_OR_ALL#

参数 <arg_name> 的值必须是 ‘any’ 或 ‘all’,但得到了 ‘<arg_value>’。

VALUE_NOT_BETWEEN#

参数 <arg_name> 的值必须在 <min> 和 <max> 之间。

VALUE_NOT_NON_EMPTY_STR#

参数 <arg_name> 的值必须是非空字符串,但得到了 ‘<arg_value>’。

VALUE_NOT_PEARSON#

参数 <arg_name> 的值只支持 ‘pearson’,但得到了 ‘<arg_value>’。

VALUE_NOT_PLAIN_COLUMN_REFERENCE#

<field_name> 中的值 <val> 应该是简单的列引用,例如 df.colcol(‘column’)

VALUE_NOT_POSITIVE#

参数 <arg_name> 的值必须为正数,但得到了 ‘<arg_value>’。

VALUE_NOT_TRUE#

参数 <arg_name> 的值必须为 True,但得到了 ‘<arg_value>’。

VALUE_OUT_OF_BOUNDS#

参数 <arg_name> 的值必须在 <lower_bound> 和 <upper_bound> 之间(含),但得到了 <actual>

WRONG_NUM_ARGS_FOR_HIGHER_ORDER_FUNCTION#

函数 <func_name> 应该接受 1 到 3 个参数,但提供的函数接受 <num_args> 个。

WRONG_NUM_COLUMNS#

函数 <func_name> 应该至少接受 <num_cols> 列。

ZERO_INDEX#