PySpark 中的错误类#
这是 PySpark 返回的常见命名错误类的列表,这些错误类定义在 error-conditions.json 中。
在编写 PySpark 错误时,开发人员必须使用列表中的错误类。如果列表中没有合适的错误类,请添加一个新的。更多信息请参考 贡献错误和异常。
APPLICATION_NAME_NOT_SET#
您的配置中必须设置应用程序名称。
ARGUMENT_REQUIRED#
当 <condition> 时,参数 <arg_name> 是必需的。
ARROW_LEGACY_IPC_FORMAT#
PySpark 不支持 Arrow 旧版 IPC 格式,请取消设置 ARROW_PRE_0_15_IPC_FORMAT。
ATTRIBUTE_NOT_CALLABLE#
所提供对象 <obj_name> 中的属性 <attr_name> 不可调用。
ATTRIBUTE_NOT_SUPPORTED#
不支持属性 <attr_name>。
AXIS_LENGTH_MISMATCH#
长度不匹配:预期轴有 <expected_length> 个元素,新值有 <actual_length> 个元素。
BROADCAST_VARIABLE_NOT_LOADED#
广播变量 <variable> 未加载。
CALL_BEFORE_INITIALIZE#
在初始化 <object> 之前不支持调用 <func_name>。
CANNOT_ACCEPT_OBJECT_IN_TYPE#
<data_type> 不能接受类型为 <obj_type> 的对象 <obj_name>。
CANNOT_ACCESS_TO_DUNDER#
Dunder(双下划线)属性仅供内部使用。
CANNOT_APPLY_IN_FOR_COLUMN#
不能对列应用“in”操作符:字符串列请使用“contains”,数组列请使用“array_contains”函数。
CANNOT_BE_EMPTY#
必须至少指定一个 <item>。
CANNOT_BE_NONE#
参数 <arg_name> 不能为 None。
CANNOT_CONFIGURE_SPARK_CONNECT#
无法配置 Spark Connect 服务器:现有 [<existing_url>],新 [<new_url>]。
CANNOT_CONFIGURE_SPARK_CONNECT_MASTER#
Spark Connect 服务器和 Spark master 不能同时配置:Spark master [<master_url>],Spark Connect [<connect_url>]。
CANNOT_CONVERT_COLUMN_INTO_BOOL#
无法将列转换为布尔值:在构建 DataFrame 布尔表达式时,请使用“&”表示“and”,“|”表示“or”,“~”表示“not”。
CANNOT_CONVERT_TYPE#
无法将 <from_type> 转换为 <to_type>。
CANNOT_DETERMINE_TYPE#
推断后某些类型无法确定。
CANNOT_GET_BATCH_ID#
无法从 <obj_name> 获取批处理 ID。
CANNOT_INFER_ARRAY_ELEMENT_TYPE#
无法推断元素数据类型,需要以非 None 值开头的非空列表。
CANNOT_INFER_EMPTY_SCHEMA#
无法从空数据集中推断模式。
CANNOT_INFER_SCHEMA_FOR_TYPE#
无法推断类型 <data_type> 的模式。
CANNOT_INFER_TYPE_FOR_FIELD#
无法推断字段 <field_name> 的类型。
CANNOT_MERGE_TYPE#
无法合并类型 <data_type1> 和 <data_type2>。
CANNOT_OPEN_SOCKET#
无法打开套接字:<errors>。
CANNOT_PARSE_DATATYPE#
无法解析数据类型。<msg>。
CANNOT_PROVIDE_METADATA#
元数据只能为单个列提供。
CANNOT_REGISTER_UDTF#
无法注册 UDTF ‘<name>’:预期为 ‘UserDefinedTableFunction’。请确保 UDTF 正确定义为类,然后将其包装在 udtf() 函数中或使用 @udtf(…) 注解。
CANNOT_SET_TOGETHER#
<arg_list> 不应同时设置。
CANNOT_SPECIFY_RETURN_TYPE_FOR_UDF#
当 <arg_name> 是用户定义函数时,不能指定 returnType,但得到了 <return_type>。
CANNOT_WITHOUT#
不能没有 <condition2> 而 <condition1>。
CLASSIC_OPERATION_NOT_SUPPORTED_ON_DF#
在 PySpark Classic 中不支持调用属性或成员 ‘<member>’,请改用 Spark Connect。
COLLATION_INVALID_PROVIDER#
值 <provider> 不是正确的排序规则提供程序。支持的提供程序是:[<supportedProviders>]。
COLUMN_IN_LIST#
<func_name> 不允许列表中包含 Column。
CONNECT_URL_ALREADY_DEFINED#
只能设置一个 Spark Connect 客户端 URL;但是,从现有 [<existing_url>] 获取到不同的 URL [<new_url>]。
CONNECT_URL_NOT_SET#
无法创建 Spark Connect 会话,因为未设置 Spark Connect 远程 URL。请通过设置 ‘spark.remote’ 选项或 ‘SPARK_REMOTE’ 环境变量来定义远程 URL。
CONTEXT_ONLY_VALID_ON_DRIVER#
您似乎正在尝试从广播变量、操作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用,而不能在工作节点上运行的代码中使用。有关更多信息,请参阅 SPARK-5063。
DATA_SOURCE_INVALID_RETURN_TYPE#
Python 数据源 ‘<name>’ 返回类型 (‘<type>’) 不受支持。预期类型:<supported_types>。
DATA_SOURCE_RETURN_SCHEMA_MISMATCH#
“read”方法的返回模式不匹配。预期:<expected> 列,实际:<actual> 列。请确保返回的值与所需的输出模式匹配。
DATA_SOURCE_TYPE_MISMATCH#
预期 <expected>,但得到 <actual>。
DIFFERENT_PANDAS_DATAFRAME#
DataFrame 不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_PANDAS_INDEX#
索引不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_PANDAS_MULTIINDEX#
MultiIndex 不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_PANDAS_SERIES#
Series 不几乎相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_ROWS#
<error_msg>
DIFFERENT_SCHEMA#
模式不匹配。— 实际 +++ 预期 <error_msg>
DISALLOWED_TYPE_FOR_CONTAINER#
参数 <arg_name>(类型:<arg_type>)只能包含 [<allowed_types>] 中的类型,得到了 <item_type>
DUPLICATED_ARTIFACT#
重复的 Artifact:<normalized_path>。Artifact 不能被覆盖。
DUPLICATED_FIELD_NAME_IN_ARROW_STRUCT#
Arrow Struct 中不允许重复的字段名,得到了 <field_names>
ERROR_OCCURRED_WHILE_CALLING#
调用 <func_name> 时发生错误:<error_msg>。
FIELD_DATA_TYPE_UNACCEPTABLE#
<data_type> 不能接受类型为 <obj_type> 的对象 <obj>。
FIELD_DATA_TYPE_UNACCEPTABLE_WITH_NAME#
<field_name>: <data_type> 不能接受类型为 <obj_type> 的对象 <obj>。
FIELD_NOT_NULLABLE#
字段不可为空,但得到了 None。
FIELD_NOT_NULLABLE_WITH_NAME#
<field_name>: 此字段不可为空,但得到了 None。
FIELD_STRUCT_LENGTH_MISMATCH#
对象的长度(<object_length>)与字段的长度(<field_length>)不匹配。
FIELD_STRUCT_LENGTH_MISMATCH_WITH_NAME#
<field_name>: 对象的长度(<object_length>)与字段的长度(<field_length>)不匹配。
FIELD_TYPE_MISMATCH#
<obj> 不是类型 <data_type> 的实例。
FIELD_TYPE_MISMATCH_WITH_NAME#
<field_name>: <obj> 不是类型 <data_type> 的实例。
HIGHER_ORDER_FUNCTION_SHOULD_RETURN_COLUMN#
函数 <func_name> 应返回 Column,但得到了 <return_type>。
INCORRECT_CONF_FOR_PROFILE#
- 必须将 spark.python.profile 或 spark.python.profile.memory 配置
设置为 true 才能启用 Python 性能分析。
INDEX_NOT_POSITIVE#
索引必须为正数,得到了 ‘<index>’。
INDEX_OUT_OF_RANGE#
<arg_name> 索引超出范围,得到了 ‘<index>’。
INVALID_ARROW_UDTF_RETURN_TYPE#
Arrow 优化型 Python UDTF 的返回类型应为 ‘pandas.DataFrame’,但 ‘<func>’ 方法返回的值类型为 <return_type>,值为:<value>。
INVALID_BROADCAST_OPERATION#
广播只能在驱动程序中 <operation>。
INVALID_CALL_ON_UNRESOLVED_OBJECT#
对未解析对象调用 <func_name> 无效。
INVALID_CONNECT_URL#
Spark Connect 的 URL 无效:<detail>
INVALID_INTERVAL_CASTING#
区间 <start_field> 到 <end_field> 无效。
INVALID_ITEM_FOR_CONTAINER#
<arg_name> 中的所有项都应在 <allowed_types> 中,但得到了 <item_type>。
INVALID_JSON_DATA_TYPE_FOR_COLLATIONS#
排序规则只能应用于字符串类型,但 JSON 数据类型为 <jsonType>。
INVALID_MULTIPLE_ARGUMENT_CONDITIONS#
[{arg_names}] 不能是 <condition>。
INVALID_NDARRAY_DIMENSION#
NumPy 数组输入应为 <dimensions> 维度。
INVALID_NUMBER_OF_DATAFRAMES_IN_GROUP#
组中 DataFrame 的数量 <dataframes_in_group> 无效。
INVALID_PANDAS_UDF#
函数无效:<detail>
INVALID_PANDAS_UDF_TYPE#
<arg_name> 应该是 PandasUDFType 中的一个值,但得到了 <arg_type>
INVALID_RETURN_TYPE_FOR_ARROW_UDF#
Grouped 和 Cogrouped map Arrow UDF 应该为 <eval_type> 返回 StructType,但得到了 <return_type>。
INVALID_RETURN_TYPE_FOR_PANDAS_UDF#
Pandas UDF 应该为 <eval_type> 返回 StructType,但得到了 <return_type>。
INVALID_SESSION_UUID_ID#
参数值 <arg_name> 必须是有效的 UUID 格式:<origin>
INVALID_TIMEOUT_TIMESTAMP#
超时时间戳(<timestamp>)不能早于当前水印(<watermark>)。
INVALID_TYPE#
参数 <arg_name> 不应为 <arg_type>。
INVALID_TYPENAME_CALL#
StructField 没有 typeName。请改为在其类型上显式使用 typeName。
INVALID_TYPE_DF_EQUALITY_ARG#
参数 <arg_name> 的预期类型为 <expected_type>,但得到了类型 <actual_type>。
INVALID_UDF_EVAL_TYPE#
UDF 的 Eval 类型必须是 <eval_type>。
INVALID_UDTF_BOTH_RETURN_TYPE_AND_ANALYZE#
UDTF ‘<name>’ 无效。它同时具有返回类型和 ‘analyze’ 属性。请确保它只有返回类型或 ‘<name>’ 中的 ‘analyze’ 静态方法之一,然后重试。
INVALID_UDTF_EVAL_TYPE#
UDTF ‘<name>’ 的 eval 类型无效。它必须是 <eval_type> 中的一个。
INVALID_UDTF_HANDLER_TYPE#
UDTF 无效。函数处理程序必须是类,但得到了 ‘<type>’。请提供一个类作为函数处理程序。
INVALID_UDTF_NO_EVAL#
UDTF ‘<name>’ 无效。它没有实现必需的 ‘eval’ 方法。请在 ‘<name>’ 中实现 ‘eval’ 方法,然后重试。
INVALID_UDTF_RETURN_TYPE#
UDTF ‘<name>’ 无效。它没有指定其返回类型或实现必需的 ‘analyze’ 静态方法。请指定返回类型或在 ‘<name>’ 中实现 ‘analyze’ 静态方法,然后重试。
INVALID_WHEN_USAGE#
when() 只能应用于先前由 when() 函数生成的 Column,一旦应用 otherwise() 则不能再应用。
INVALID_WINDOW_BOUND_TYPE#
窗口边界类型无效:<window_bound_type>。
JAVA_GATEWAY_EXITED#
Java 网关进程在发送其端口号之前退出。
JVM_ATTRIBUTE_NOT_SUPPORTED#
Spark Connect 不支持属性 <attr_name>,因为它依赖于 JVM。如果您需要使用此属性,请在创建会话时不要使用 Spark Connect。有关创建常规 Spark 会话的详细信息,请访问 https://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession。
KEY_NOT_EXISTS#
键 <key> 不存在。
KEY_VALUE_PAIR_REQUIRED#
需要键值对或对列表。
LENGTH_SHOULD_BE_THE_SAME#
<arg1> 和 <arg2> 的长度应相同,但得到了 <arg1_length> 和 <arg2_length>。
MALFORMED_VARIANT#
变体二进制文件格式错误。请检查数据源是否有效。
MASTER_URL_INVALID#
Master 必须是 yarn 或以 spark、k8s 或 local 开头。
MASTER_URL_NOT_SET#
您的配置中必须设置 master URL。
MEMORY_PROFILE_INVALID_SOURCE#
内存分析器只能用于带行号的编辑器。
MISSING_LIBRARY_FOR_PROFILER#
在集群中安装 ‘memory_profiler’ 库以启用内存分析。
MISSING_VALID_PLAN#
参数 <operator> 不包含有效计划。
MIXED_TYPE_REPLACEMENT#
不支持混合类型替换。
NEGATIVE_VALUE#
参数 <arg_name> 的值必须大于或等于 0,但得到了 ‘<arg_value>’。
NOT_BOOL#
参数 <arg_name> 应为 bool 类型,但得到了 <arg_type>。
NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_LIST_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 bool、dict、float、int、str 或 tuple 类型,但得到了 <arg_type>。
NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_STR#
参数 <arg_name> 应为 bool、dict、float、int 或 str 类型,但得到了 <arg_type>。
NOT_BOOL_OR_FLOAT_OR_INT#
参数 <arg_name> 应为 bool、float 或 int 类型,但得到了 <arg_type>。
NOT_BOOL_OR_FLOAT_OR_INT_OR_LIST_OR_NONE_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 bool、float、int、list、None、str 或 tuple 类型,但得到了 <arg_type>。
NOT_BOOL_OR_FLOAT_OR_INT_OR_STR#
参数 <arg_name> 应为 bool、float、int 或 str 类型,但得到了 <arg_type>。
NOT_BOOL_OR_LIST#
参数 <arg_name> 应为 bool 或 list 类型,但得到了 <arg_type>。
NOT_BOOL_OR_STR#
参数 <arg_name> 应为 bool 或 str 类型,但得到了 <arg_type>。
NOT_CALLABLE#
参数 <arg_name> 应为可调用对象,但得到了 <arg_type>。
NOT_COLUMN#
参数 <arg_name> 应为 Column 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_DATATYPE_OR_STR#
参数 <arg_name> 应为 Column、str 或 DataType 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_FLOAT_OR_INT_OR_LIST_OR_STR#
参数 <arg_name> 应为 Column、float、integer、list 或 string 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_INT#
参数 <arg_name> 应为 Column 或 int 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_INT_OR_LIST_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 Column、int、list、str 或 tuple 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_INT_OR_STR#
参数 <arg_name> 应为 Column、int 或 str 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_LIST_OR_STR#
参数 <arg_name> 应为 Column、list 或 str 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_STR#
参数 <arg_name> 应为 Column 或 str 类型,但得到了 <arg_type>。
NOT_COLUMN_OR_STR_OR_STRUCT#
参数 <arg_name> 应为 StructType、Column 或 str 类型,但得到了 <arg_type>。
NOT_DATAFRAME#
参数 <arg_name> 应为 DataFrame 类型,但得到了 <arg_type>。
NOT_DATATYPE_OR_STR#
参数 <arg_name> 应为 DataType 或 str 类型,但得到了 <arg_type>。
NOT_DICT#
参数 <arg_name> 应为 dict 类型,但得到了 <arg_type>。
NOT_EXPRESSION#
参数 <arg_name> 应为 Expression 类型,但得到了 <arg_type>。
NOT_FLOAT_OR_INT#
参数 <arg_name> 应为 float 或 int 类型,但得到了 <arg_type>。
NOT_FLOAT_OR_INT_OR_LIST_OR_STR#
参数 <arg_name> 应为 float、int、list 或 str 类型,但得到了 <arg_type>。
NOT_IMPLEMENTED#
未实现 <feature>。
NOT_INT#
参数 <arg_name> 应为 int 类型,但得到了 <arg_type>。
NOT_INT_OR_SLICE_OR_STR#
参数 <arg_name> 应为 int、slice 或 str 类型,但得到了 <arg_type>。
NOT_IN_BARRIER_STAGE#
不在屏障阶段。
NOT_ITERABLE#
<objectName> 不可迭代。
NOT_LIST#
参数 <arg_name> 应为 list 类型,但得到了 <arg_type>。
NOT_LIST_OF_COLUMN#
参数 <arg_name> 应为 list[Column]。
NOT_LIST_OF_COLUMN_OR_STR#
参数 <arg_name> 应为 list[Column]。
参数 <arg_name> 应为 Column 或 str 的列表。
NOT_LIST_OF_FLOAT_OR_INT#
参数 <arg_name> 应为 list[float, int] 类型,但得到了 <arg_type>。
NOT_LIST_OF_STR#
参数 <arg_name> 应为 list[str] 类型,但得到了 <arg_type>。
NOT_LIST_OR_NONE_OR_STRUCT#
参数 <arg_name> 应为 list、None 或 StructType 类型,但得到了 <arg_type>。
NOT_LIST_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 list、str 或 tuple 类型,但得到了 <arg_type>。
NOT_LIST_OR_TUPLE#
参数 <arg_name> 应为 list 或 tuple 类型,但得到了 <arg_type>。
NOT_NUMERIC_COLUMNS#
数值聚合函数只能应用于数值列,但得到了 <invalid_columns>。
NOT_OBSERVATION_OR_STR#
参数 <arg_name> 应为 Observation 或 str 类型,但得到了 <arg_type>。
NOT_SAME_TYPE#
参数 <arg_name1> 和 <arg_name2> 应为相同类型,但得到了 <arg_type1> 和 <arg_type2>。
NOT_STR#
参数 <arg_name> 应为 str 类型,但得到了 <arg_type>。
NOT_STRUCT#
参数 <arg_name> 应为 struct 类型,但得到了 <arg_type>。
NOT_STR_OR_LIST_OF_RDD#
参数 <arg_name> 应为 str 或 list[RDD] 类型,但得到了 <arg_type>。
NOT_STR_OR_STRUCT#
参数 <arg_name> 应为 str 或 struct 类型,但得到了 <arg_type>。
NOT_WINDOWSPEC#
参数 <arg_name> 应为 WindowSpec 类型,但得到了 <arg_type>。
NO_ACTIVE_EXCEPTION#
没有活动异常。
NO_ACTIVE_OR_DEFAULT_SESSION#
未找到活动或默认的 Spark 会话。请在运行代码之前创建一个新的 Spark 会话。
NO_ACTIVE_SESSION#
未找到活动的 Spark 会话。请在运行代码之前创建一个新的 Spark 会话。
NO_OBSERVE_BEFORE_GET#
在 get 之前应通过调用 DataFrame.observe 进行观察。
NO_SCHEMA_AND_DRIVER_DEFAULT_SCHEME#
只允许 <arg_name> 作为没有方案的路径,并且 Spark 驱动程序应使用默认方案来确定目标文件系统。
ONLY_ALLOWED_FOR_SINGLE_COLUMN#
参数 <arg_name> 只能为单个列提供。
ONLY_ALLOW_SINGLE_TRIGGER#
只允许单个触发器。
ONLY_SUPPORTED_WITH_SPARK_CONNECT#
仅 Spark Connect 支持 <feature>;但是,当前的 Spark 会话未使用 Spark Connect。
PACKAGE_NOT_INSTALLED#
必须安装 <package_name> >= <minimum_version>;但未找到。
PANDAS_API_ON_SPARK_FAIL_ON_ANSI_MODE#
Spark 上的 Pandas API 在 ANSI 模式下无法正常工作。请将 Spark 配置 ‘spark.sql.ansi.enabled’ 设置为 false。或者,将 pandas-on-spark 选项 ‘compute.fail_on_ansi_mode’ 设置为 False 以强制其工作,尽管这可能导致意外行为。
PANDAS_UDF_OUTPUT_EXCEEDS_INPUT_ROWS#
Pandas SCALAR_ITER UDF 输出的行数超过了输入行数。
PIPE_FUNCTION_EXITED#
管道函数 <func_name> 以错误代码 <error_code> 退出。
PLOT_INVALID_TYPE_COLUMN#
列 <col_name> 必须是 <valid_types> 之一才能绘图,但得到了 <col_type>。
PLOT_NOT_NUMERIC_COLUMN_ARGUMENT#
参数 <arg_name> 必须是用于绘图的数值列,但得到了 <arg_type>。
PYTHON_HASH_SEED_NOT_SET#
应通过 PYTHONHASHSEED 禁用字符串哈希的随机性。
PYTHON_STREAMING_DATA_SOURCE_RUNTIME_ERROR#
运行 Python 流式数据源失败:<msg>
PYTHON_VERSION_MISMATCH#
工作节点中的 Python 版本(<worker_version>)与驱动程序中的版本(<driver_version>)不同,PySpark 无法在不同的小版本下运行。请检查环境变量 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是否设置正确。
RDD_TRANSFORM_ONLY_VALID_ON_DRIVER#
您似乎正在尝试广播 RDD 或从操作或转换中引用 RDD。RDD 转换和操作只能由驱动程序调用,而不能在其他转换内部调用;例如,rdd1.map(lambda x: rdd2.values.count() * x) 是无效的,因为不能在 rdd1.map 转换内部执行 values 转换和 count 操作。有关更多信息,请参阅 SPARK-5063。
READ_ONLY#
<object> 是只读的。
RESPONSE_ALREADY_RECEIVED#
服务器上未找到 OPERATION_NOT_FOUND,但已收到来自它的响应。
RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDF#
返回的 pyarrow.Table 的列名与指定模式不匹配。<missing><extra>
RESULT_COLUMNS_MISMATCH_FOR_PANDAS_UDF#
返回的 pandas.DataFrame 的列名与指定模式不匹配。<missing><extra>
RESULT_LENGTH_MISMATCH_FOR_PANDAS_UDF#
返回的 pandas.DataFrame 的列数与指定模式不匹配。预期:<expected> 实际:<actual>
RESULT_LENGTH_MISMATCH_FOR_SCALAR_ITER_PANDAS_UDF#
Scalar 迭代器 pandas UDF 的输出长度应与输入长度相同;但是,输出长度为 <output_length>,输入长度为 <input_length>。
RESULT_TYPE_MISMATCH_FOR_ARROW_UDF#
列的数据类型不匹配:<mismatch>。
RETRIES_EXCEEDED#
已超出最大重试次数。
REUSE_OBSERVATION#
一个 Observation 只能与一个 DataFrame 使用一次。
SCHEMA_MISMATCH_FOR_PANDAS_UDF#
来自 pandas_udf 的结果向量长度不符合要求:预期 <expected>,实际 <actual>。
SESSION_ALREADY_EXIST#
无法启动远程 Spark 会话,因为已经有常规 Spark 会话正在运行。
SESSION_NEED_CONN_STR_OR_BUILDER#
需要连接字符串或 channelBuilder(互斥)才能创建新的 SparkSession。
SESSION_NOT_SAME#
两个数据集必须属于同一个 SparkSession。
SESSION_OR_CONTEXT_EXISTS#
不应该存在现有的 Spark 会话或 Spark Context。
SESSION_OR_CONTEXT_NOT_EXISTS#
SparkContext 或 SparkSession 应首先创建。
SLICE_WITH_STEP#
不支持带步长的切片。
STATE_NOT_EXISTS#
状态未定义或已被删除。
STOP_ITERATION_OCCURRED#
捕获到用户代码抛出的 StopIteration;任务失败:<exc>
STOP_ITERATION_OCCURRED_FROM_SCALAR_ITER_PANDAS_UDF#
pandas 迭代器 UDF 应耗尽输入迭代器。
STREAMING_CONNECT_SERIALIZATION_ERROR#
无法序列化函数 <name>。如果您访问了 Spark 会话、在函数外部定义的 DataFrame 或任何包含 Spark 会话的对象,请注意 Spark Connect 中不允许这样做。对于 foreachBatch,请使用 df.sparkSession 访问 Spark 会话,其中 df 是您 foreachBatch 函数中的第一个参数。对于 StreamingQueryListener,请使用 self.spark 访问 Spark 会话。有关详细信息,请查阅 foreachBatch 和 StreamingQueryListener 的 PySpark 文档。
TEST_CLASS_NOT_COMPILED#
<test_class_path> 不存在。Spark sql 测试类未编译。
TOO_MANY_VALUES#
预期 <item> 有 <expected> 个值,但得到了 <actual> 个。
TYPE_HINT_SHOULD_BE_SPECIFIED#
应指定 <target> 的类型提示;但得到了 <sig>。
UDF_RETURN_TYPE#
用户定义函数的返回类型应为 <expected>,但实际为 <actual>。
UDTF_ARROW_TYPE_CAST_ERROR#
无法将列 ‘<col_name>’ 的输出值,其类型为 ‘<col_type>’,转换为列的指定返回类型:‘<arrow_type>’。请检查数据类型是否匹配,然后重试。
UDTF_CONSTRUCTOR_INVALID_IMPLEMENTS_ANALYZE_METHOD#
无法评估用户定义表函数 ‘<name>’,因为其构造函数无效:函数实现了 ‘analyze’ 方法,但其构造函数有超过两个参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数只接受一个 ‘self’ 参数,或一个 ‘self’ 参数加上 ‘analyze’ 方法的结果的另一个参数,然后再次尝试查询。
UDTF_CONSTRUCTOR_INVALID_NO_ANALYZE_METHOD#
无法评估用户定义表函数 ‘<name>’,因为其构造函数无效:函数未实现 ‘analyze’ 方法,且其构造函数有超过一个参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数只接受一个 ‘self’ 参数,然后再次尝试查询。
UDTF_EVAL_METHOD_ARGUMENTS_DO_NOT_MATCH_SIGNATURE#
无法评估用户定义表函数 ‘<name>’,因为函数参数与 ‘eval’ 方法的预期签名不匹配(<reason>)。请更新查询,使此表函数调用提供与预期签名匹配的参数,否则更新表函数,使其 ‘eval’ 方法接受提供的参数,然后再次尝试查询。
UDTF_EXEC_ERROR#
用户定义表函数在 ‘<method_name>’ 方法中遇到错误:<error>
UDTF_INVALID_OUTPUT_ROW_TYPE#
UDTF 的 ‘<func>’ 方法中单个输出行的类型无效。每行应为元组、列表或字典,但得到了 ‘<type>’。请确保输出行的类型正确。
UDTF_RETURN_NOT_ITERABLE#
UDTF 的 ‘<func>’ 方法的返回值无效。它应为可迭代对象(例如,生成器或列表),但得到了 ‘<type>’。请确保 UDTF 返回这些类型之一。
UDTF_RETURN_SCHEMA_MISMATCH#
结果中的列数与指定模式不匹配。预期列数:<expected>,实际列数:<actual>。请确保 ‘<func>’ 方法返回的值的列数与输出模式中指定的列数相同。
UDTF_RETURN_TYPE_MISMATCH#
UDTF ‘<name>’ 的返回类型不匹配。预期为 ‘StructType’,但得到了 ‘<return_type>’。请确保返回类型是正确格式的 StructType。
UDTF_SERIALIZATION_ERROR#
无法序列化 UDTF ‘<name>’:<message>
UNEXPECTED_RESPONSE_FROM_SERVER#
来自迭代器服务器的意外响应。
UNEXPECTED_TUPLE_WITH_STRUCT#
StructType 的意外元组 <tuple>。
UNKNOWN_EXPLAIN_MODE#
未知的解释模式:‘<explain_mode>’。接受的解释模式有 ‘simple’、‘extended’、‘codegen’、‘cost’、‘formatted’。
UNKNOWN_INTERRUPT_TYPE#
未知的中断类型:‘<interrupt_type>’。接受的中断类型有 ‘all’。
UNKNOWN_RESPONSE#
未知响应:<response>。
UNKNOWN_VALUE_FOR#
<var> 的值未知。
UNSUPPORTED_DATA_TYPE#
不支持的数据类型 <data_type>。
UNSUPPORTED_DATA_TYPE_FOR_ARROW#
Arrow 不支持单一数据类型 <data_type>。
UNSUPPORTED_DATA_TYPE_FOR_ARROW_CONVERSION#
将 <data_type> 转换为 Arrow 不受支持。
UNSUPPORTED_DATA_TYPE_FOR_ARROW_VERSION#
仅 pyarrow 2.0.0 及以上版本支持 <data_type>。
UNSUPPORTED_JOIN_TYPE#
不支持的连接类型:‘<typ>’。支持的连接类型包括:<supported>。
UNSUPPORTED_LITERAL#
不支持的字面量 ‘<literal>’。
UNSUPPORTED_LOCAL_CONNECTION_STRING#
不支持使用 local 连接字符串创建新的 SparkSession。
UNSUPPORTED_NUMPY_ARRAY_SCALAR#
不支持数组标量 ‘<dtype>’ 的类型。
UNSUPPORTED_OPERATION#
不支持 <operation>。
UNSUPPORTED_PACKAGE_VERSION#
必须安装 <package_name> >= <minimum_version>;但您的版本是 <current_version>。
UNSUPPORTED_PARAM_TYPE_FOR_HIGHER_ORDER_FUNCTION#
函数 <func_name> 应仅使用位置参数或位置/关键字参数。
UNSUPPORTED_PIE_PLOT_PARAM#
饼图需要 y 列或 subplots=True。
UNSUPPORTED_PLOT_BACKEND#
不支持 <backend>,它应该是 <supported_backends> 中的一个值。
UNSUPPORTED_PLOT_BACKEND_PARAM#
<backend> 不支持将 <param> 设置为 <value>,它应该是 <supported_values> 中的一个值。
UNSUPPORTED_SIGNATURE#
不支持的签名:<signature>。
UNSUPPORTED_WITH_ARROW_OPTIMIZATION#
在 Python UDF 中启用 Arrow 优化时不支持 <feature>。禁用 ‘spark.sql.execution.pythonUDF.arrow.enabled’ 可解决此问题。
VALUE_ALLOWED#
参数 <arg_name> 的值不允许 <disallowed_value>。
VALUE_NOT_ACCESSIBLE#
任务内部无法访问值 <value>。
VALUE_NOT_ALLOWED#
参数 <arg_name> 的值必须是以下值之一:<allowed_values>。
VALUE_NOT_ANY_OR_ALL#
参数 <arg_name> 的值必须是 ‘any’ 或 ‘all’,但得到了 ‘<arg_value>’。
VALUE_NOT_BETWEEN#
参数 <arg_name> 的值必须在 <min> 和 <max> 之间。
VALUE_NOT_NON_EMPTY_STR#
参数 <arg_name> 的值必须是非空字符串,但得到了 ‘<arg_value>’。
VALUE_NOT_PEARSON#
参数 <arg_name> 的值只支持 ‘pearson’,但得到了 ‘<arg_value>’。
VALUE_NOT_PLAIN_COLUMN_REFERENCE#
<field_name> 中的值 <val> 应该是简单的列引用,例如 df.col 或 col(‘column’)。
VALUE_NOT_POSITIVE#
参数 <arg_name> 的值必须为正数,但得到了 ‘<arg_value>’。
VALUE_NOT_TRUE#
参数 <arg_name> 的值必须为 True,但得到了 ‘<arg_value>’。
VALUE_OUT_OF_BOUNDS#
参数 <arg_name> 的值必须在 <lower_bound> 和 <upper_bound> 之间(含),但得到了 <actual>
WRONG_NUM_ARGS_FOR_HIGHER_ORDER_FUNCTION#
函数 <func_name> 应该接受 1 到 3 个参数,但提供的函数接受 <num_args> 个。
WRONG_NUM_COLUMNS#
函数 <func_name> 应该至少接受 <num_cols> 列。
ZERO_INDEX#