PySpark 中的错误类#
这是一份 PySpark 返回的常见命名错误类列表,这些错误类定义在 error-conditions.json 中。
在编写 PySpark 错误时,开发人员必须使用列表中的错误类。如果没有合适的错误类,请在列表中添加一个新的。更多信息,请参阅 贡献错误和异常 (Contributing Error and Exception)。
APPLICATION_NAME_NOT_SET#
必须在配置中设置应用程序名称。
ARGUMENT_REQUIRED#
当 <condition> 时,参数 <arg_name> 是必需的。
ARROW_LEGACY_IPC_FORMAT#
PySpark 不支持 Arrow 旧版 IPC 格式,请取消设置 ARROW_PRE_0_15_IPC_FORMAT。
ATTEMPT_ANALYSIS_IN_PIPELINE_QUERY_FUNCTION#
在流水线查询函数中不允许执行触发 DataFrame 分析或执行的操作。请将代码移到流水线查询函数之外。
ATTRIBUTE_NOT_CALLABLE#
所提供对象 <obj_name> 中的属性 <attr_name> 不可调用。
ATTRIBUTE_NOT_SUPPORTED#
属性 <attr_name> 不受支持。
AXIS_LENGTH_MISMATCH#
长度不匹配:预期轴有 <expected_length> 个元素,新值有 <actual_length> 个元素。
BROADCAST_VARIABLE_NOT_LOADED#
广播变量 <variable> 未加载。
CALL_BEFORE_INITIALIZE#
不支持在初始化 <object> 之前调用 <func_name>。
CANNOT_ACCEPT_OBJECT_IN_TYPE#
<data_type> 不能接受类型为 <obj_type> 的对象 <obj_name>。
CANNOT_ACCESS_TO_DUNDER#
Dunder(双下划线)属性仅供内部使用。
CANNOT_APPLY_IN_FOR_COLUMN#
无法对列应用 ‘in’ 运算符:请在字符串列中使用 ‘contains’,或在数组列中使用 ‘array_contains’ 函数。
CANNOT_BE_EMPTY#
必须至少指定一个 <item>。
CANNOT_BE_NONE#
参数 <arg_name> 不能为 None。
CANNOT_CONFIGURE_SPARK_CONNECT#
无法配置 Spark Connect 服务器:现有 [<existing_url>],新配置 [<new_url>]。
CANNOT_CONFIGURE_SPARK_CONNECT_MASTER#
无法同时配置 Spark Connect 服务器和 Spark master:Spark master [<master_url>],Spark Connect [<connect_url>]。
CANNOT_CONVERT_COLUMN_INTO_BOOL#
无法将列转换为布尔值:构建 DataFrame 布尔表达式时,请分别使用 ‘&’ 代替 ‘and’,‘|’ 代替 ‘or’,‘~’ 代替 ‘not’。
CANNOT_CONVERT_TYPE#
无法将 <from_type> 转换为 <to_type>。
CANNOT_DETERMINE_TYPE#
推断后无法确定某些类型。
CANNOT_GET_BATCH_ID#
无法从 <obj_name> 获取批次 ID。
CANNOT_INFER_ARRAY_ELEMENT_TYPE#
无法推断元素数据类型,需要一个以非 None 值开头的非空列表。
CANNOT_INFER_EMPTY_SCHEMA#
无法从空数据集中推断模式。
CANNOT_INFER_SCHEMA_FOR_TYPE#
无法推断类型 <data_type> 的模式。
CANNOT_INFER_TYPE_FOR_FIELD#
无法推断字段 <field_name> 的类型。
CANNOT_MERGE_TYPE#
无法合并类型 <data_type1> 和 <data_type2>。
CANNOT_OPEN_SOCKET#
无法打开套接字:<errors>。
CANNOT_PARSE_DATATYPE#
无法解析数据类型。<msg>。
CANNOT_PROVIDE_METADATA#
元数据只能为单个列提供。
CANNOT_REGISTER_UDTF#
无法注册 UDTF ‘<name>’:预期为 ‘UserDefinedTableFunction’。请确保 UDTF 正确定义为类,然后将其包装在 udtf() 函数中,或使用 @udtf(…) 进行注解。
CANNOT_SET_TOGETHER#
<arg_list> 不应一起设置。
CANNOT_SPECIFY_RETURN_TYPE_FOR_UDF#
当 <arg_name> 为用户自定义函数时,不能指定 returnType,但得到的是 <return_type>。
CANNOT_WITHOUT#
没有 <condition2>,无法执行 <condition1>。
CLASSIC_OPERATION_NOT_SUPPORTED_ON_DF#
PySpark Classic 不支持调用属性或成员 ‘<member>’,请改用 Spark Connect。
COLLATION_INVALID_PROVIDER#
值 <provider> 不代表正确的排序规则提供程序。支持的提供程序有:[<supportedProviders>]。
COLUMN_IN_LIST#
<func_name> 不允许列表中包含 Column。
CONFLICTING_PIPELINE_REFRESH_OPTIONS#
–full-refresh-all 选项与 <conflicting_option> 冲突。–full-refresh-all 选项对所有数据集执行完全刷新,因此不允许使用 <conflicting_option> 指定单个数据集。
CONNECT_URL_ALREADY_DEFINED#
只能设置一个 Spark Connect 客户端 URL;然而,从现有的 [<existing_url>] 中得到了不同的 URL [<new_url>]。
CONNECT_URL_NOT_SET#
无法创建 Spark Connect 会话,因为尚未设置 Spark Connect 远程 URL。请通过设置 ‘spark.remote’ 选项或 ‘SPARK_REMOTE’ 环境变量来定义远程 URL。
CONTEXT_ONLY_VALID_ON_DRIVER#
看来您正尝试从广播变量、动作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用,而不能在工作节点运行的代码中使用。更多信息,请参见 SPARK-5063。
DATA_SOURCE_EXTRANEOUS_FILTERS#
<type>.pushFilters() 返回了不属于输入的过滤器。请确保每个返回的过滤器在引用上都是输入过滤器之一。
DATA_SOURCE_INVALID_RETURN_TYPE#
来自 Python 数据源 ‘<name>’ 的不支持的返回类型 (‘<type>’)。预期类型:<supported_types>。
DATA_SOURCE_PUSHDOWN_DISABLED#
<type> 实现了 pushFilters(),但由于配置 ‘<conf>’ 为 false,过滤器下推被禁用。将其设置为 true 以启用过滤器下推。
DATA_SOURCE_RETURN_SCHEMA_MISMATCH#
‘read’ 方法返回的结果中模式不匹配。预期:<expected> 列,发现:<actual> 列。请确保返回的值与所需的输出模式匹配。
DATA_SOURCE_TYPE_MISMATCH#
预期 <expected>,但得到的是 <actual>。
DATA_SOURCE_UNSUPPORTED_FILTER#
意外的过滤器 <name>。
DECORATOR_ARGUMENT_NOT_CALLABLE#
传递给 @<decorator_name> 的第一个位置参数必须是可调用的。要么在函数中使用无参数的 @<decorator_name>,要么使用关键字参数将选项传递给 @<decorator_name>(例如 <example_usage>)。
DIFFERENT_PANDAS_DATAFRAME#
DataFrame 不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_PANDAS_INDEX#
索引不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_PANDAS_MULTIINDEX#
MultiIndices 不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_PANDAS_SERIES#
Series 不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>
DIFFERENT_ROWS#
<error_msg>
DIFFERENT_SCHEMA#
模式不匹配。— 实际 +++ 预期 <error_msg>
DISALLOWED_TYPE_FOR_CONTAINER#
参数 <arg_name> (类型: <arg_type>) 应仅包含 [<allowed_types>] 中的类型,但得到的是 <item_type>
DUPLICATED_ARTIFACT#
重复的制品:<normalized_path>。制品无法被覆盖。
DUPLICATED_FIELD_NAME_IN_ARROW_STRUCT#
不允许在 Arrow Struct 中出现重复的字段名,得到的是 <field_names>
ERROR_OCCURRED_WHILE_CALLING#
调用 <func_name> 时发生错误:<error_msg>。
FIELD_DATA_TYPE_UNACCEPTABLE#
<data_type> 不能接受类型为 <obj_type> 的对象 <obj>。
FIELD_DATA_TYPE_UNACCEPTABLE_WITH_NAME#
<field_name>: <data_type> 不能接受类型为 <obj_type> 的对象 <obj>。
FIELD_NOT_NULLABLE#
字段不可为空,但得到的是 None。
FIELD_NOT_NULLABLE_WITH_NAME#
<field_name>: 该字段不可为空,但得到的是 None。
FIELD_STRUCT_LENGTH_MISMATCH#
对象长度 (<object_length>) 与字段长度 (<field_length>) 不匹配。
FIELD_STRUCT_LENGTH_MISMATCH_WITH_NAME#
<field_name>: 对象长度 (<object_length>) 与字段长度 (<field_length>) 不匹配。
FIELD_TYPE_MISMATCH#
<obj> 不是类型 <data_type> 的实例。
FIELD_TYPE_MISMATCH_WITH_NAME#
<field_name>: <obj> 不是类型 <data_type> 的实例。
GRAPH_ELEMENT_DEFINED_OUTSIDE_OF_DECLARATIVE_PIPELINE#
定义声明式流水线元素的 API 只能在定义流水线的上下文中调用。
HIGHER_ORDER_FUNCTION_SHOULD_RETURN_COLUMN#
函数 <func_name> 应返回 Column,但得到的是 <return_type>。
INCORRECT_CONF_FOR_PROFILE#
- spark.python.profile 或 spark.python.profile.memory 配置
必须设置为 true 才能启用 Python 分析。
INDEX_NOT_POSITIVE#
索引必须为正数,得到的是 ‘<index>’。
INDEX_OUT_OF_RANGE#
<arg_name> 索引超出范围,得到的是 ‘<index>’。
INVALID_ARROW_UDTF_RETURN_TYPE#
Arrow 优化后的 Python UDTF 的返回类型应为 ‘pandas.DataFrame’,但 ‘<func>’ 方法返回了类型为 <return_type> 的值:<value>。
INVALID_ARROW_UDTF_TABLE_ARGUMENT#
带有 PARTITION BY 的 Arrow UDTF 必须具有导致 PyArrow RecordBatch 的 TABLE 参数,但得到的是 <actual_type>。
INVALID_ARROW_UDTF_WITH_ANALYZE#
Arrow UDTF ‘<name>’ 无效。Arrow UDTF 不支持 ‘analyze’ 方法。请从 ‘<name>’ 中移除 ‘analyze’ 方法并指定返回类型。
INVALID_BROADCAST_OPERATION#
广播只能在驱动程序中 <operation>。
INVALID_CALL_ON_UNRESOLVED_OBJECT#
对未解析的对象调用 <func_name> 无效。
INVALID_CONNECT_URL#
Spark Connect 的 URL 无效:<detail>
INVALID_INTERVAL_CASTING#
从 <start_field> 到 <end_field> 的间隔无效。
INVALID_ITEM_FOR_CONTAINER#
<arg_name> 中的所有项目都应在 <allowed_types> 中,但得到的是 <item_type>。
INVALID_JSON_DATA_TYPE_FOR_COLLATIONS#
排序规则只能应用于字符串类型,但 JSON 数据类型为 <jsonType>。
INVALID_MULTIPLE_ARGUMENT_CONDITIONS#
[{arg_names}] 不能为 <condition>。
INVALID_NDARRAY_DIMENSION#
NumPy 数组输入应具有 <dimensions> 维度。
INVALID_NUMBER_OF_DATAFRAMES_IN_GROUP#
组 <dataframes_in_group> 中的 DataFrame 数量无效。
INVALID_PANDAS_UDF#
函数无效:<detail>
INVALID_PANDAS_UDF_TYPE#
<arg_name> 应为 PandasUDFType 中的值之一,但得到的是 <arg_type>
INVALID_RETURN_TYPE_FOR_ARROW_UDF#
分组和协同分组映射 Arrow UDF 应为 <eval_type> 返回 StructType,但得到的是 <return_type>。
INVALID_RETURN_TYPE_FOR_PANDAS_UDF#
Pandas UDF 应为 <eval_type> 返回 StructType,但得到的是 <return_type>。
INVALID_SESSION_UUID_ID#
参数值 <arg_name> 必须是有效的 UUID 格式:<origin>
INVALID_TIMEOUT_TIMESTAMP#
超时时间戳 (<timestamp>) 不能早于当前水位 (<watermark>)。
INVALID_TYPE#
参数 <arg_name> 不应为 <arg_type>。
INVALID_TYPENAME_CALL#
StructField 没有 typeName。请明确使用其类型上的 typeName。
INVALID_TYPE_DF_EQUALITY_ARG#
预期 <arg_name> 的类型为 <expected_type>,但得到的是类型 <actual_type>。
INVALID_UDF_EVAL_TYPE#
UDF 的评估类型必须为 <eval_type>。
INVALID_UDTF_BOTH_RETURN_TYPE_AND_ANALYZE#
UDTF ‘<name>’ 无效。它同时具有返回类型和 ‘analyze’ 属性。请确保它仅具有返回类型或 ‘analyze’ 静态方法中的一个,然后重试。
INVALID_UDTF_EVAL_TYPE#
UDTF ‘<name>’ 的评估类型无效。它必须是 <eval_type> 之一。
INVALID_UDTF_HANDLER_TYPE#
UDTF 无效。函数处理程序必须是一个类,但得到的是 ‘<type>’。请提供一个类作为函数处理程序。
INVALID_UDTF_NO_EVAL#
UDTF ‘<name>’ 无效。它没有实现所需的 ‘eval’ 方法。请在 ‘<name>’ 中实现 ‘eval’ 方法,然后重试。
INVALID_UDTF_RETURN_TYPE#
UDTF ‘<name>’ 无效。它没有指定其返回类型或实现所需的 ‘analyze’ 静态方法。请在 ‘<name>’ 中指定返回类型或实现 ‘analyze’ 静态方法,然后重试。
INVALID_WHEN_USAGE#
when() 只能应用于先前由 when() 函数生成的列,且一旦应用了 otherwise(),则不能再应用。
INVALID_WINDOW_BOUND_TYPE#
窗口边界类型无效:<window_bound_type>。
JAVA_GATEWAY_EXITED#
Java 网关进程在发送其端口号之前退出。
JVM_ATTRIBUTE_NOT_SUPPORTED#
属性 <attr_name> 在 Spark Connect 中不受支持,因为它依赖于 JVM。如果您需要使用此属性,请在创建会话时不要使用 Spark Connect。访问 https://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession 获取关于创建常规 Spark 会话的详细信息。
KEY_NOT_EXISTS#
键 <key> 不存在。
KEY_VALUE_PAIR_REQUIRED#
需要键值对或键值对列表。
LENGTH_SHOULD_BE_THE_SAME#
<arg1> 和 <arg2> 的长度应相同,得到的是 <arg1_length> 和 <arg2_length>。
MALFORMED_GEOGRAPHY#
地理二进制格式不正确。请检查数据源是否有效。
MALFORMED_GEOMETRY#
几何二进制格式不正确。请检查数据源是否有效。
MALFORMED_VARIANT#
变体二进制格式不正确。请检查数据源是否有效。
MASTER_URL_INVALID#
Master 必须是 yarn,或者以 spark、k8s 或 local 开头。
MASTER_URL_NOT_SET#
必须在配置中设置 master URL。
MEMORY_PROFILE_INVALID_SOURCE#
内存分析器只能在带行号的编辑器上使用。
MISSING_LIBRARY_FOR_PROFILER#
在集群中安装 ‘memory_profiler’ 库以启用内存分析。
MISSING_VALID_PLAN#
<operator> 的参数不包含有效的计划。
MIXED_TYPE_REPLACEMENT#
不支持混合类型的替换。
MULTIPLE_PIPELINE_SPEC_FILES_FOUND#
在目录 <dir_path> 中找到多个流水线规范文件。请删除其中一个,或使用 –spec 参数选择特定的一个。
NEGATIVE_VALUE#
<arg_name> 的值必须大于或等于 0,得到的是 ‘<arg_value>’。
NOT_BOOL#
参数 <arg_name> 应为 bool,但得到的是 <arg_type>。
NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_LIST_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 bool、dict、float、int、str 或 tuple,但得到的是 <arg_type>。
NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_STR#
参数 <arg_name> 应为 bool、dict、float、int 或 str,但得到的是 <arg_type>。
NOT_BOOL_OR_FLOAT_OR_INT#
参数 <arg_name> 应为 bool、float 或 int,但得到的是 <arg_type>。
NOT_BOOL_OR_FLOAT_OR_INT_OR_LIST_OR_NONE_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 bool、float、int、list、None、str 或 tuple,但得到的是 <arg_type>。
NOT_BOOL_OR_FLOAT_OR_INT_OR_STR#
参数 <arg_name> 应为 bool、float、int 或 str,但得到的是 <arg_type>。
NOT_BOOL_OR_LIST#
参数 <arg_name> 应为 bool 或 list,但得到的是 <arg_type>。
NOT_BOOL_OR_STR#
参数 <arg_name> 应为 bool 或 str,但得到的是 <arg_type>。
NOT_CALLABLE#
参数 <arg_name> 应为 callable,但得到的是 <arg_type>。
NOT_COLUMN#
参数 <arg_name> 应为 Column,但得到的是 <arg_type>。
NOT_COLUMN_OR_DATATYPE_OR_STR#
参数 <arg_name> 应为 Column、str 或 DataType,但得到的是 <arg_type>。
NOT_COLUMN_OR_FLOAT_OR_INT_OR_LIST_OR_STR#
参数 <arg_name> 应为 Column、float、integer、list 或 string,但得到的是 <arg_type>。
NOT_COLUMN_OR_INT#
参数 <arg_name> 应为 Column 或 int,但得到的是 <arg_type>。
NOT_COLUMN_OR_INT_OR_LIST_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 Column、int、list、str 或 tuple,但得到的是 <arg_type>。
NOT_COLUMN_OR_INT_OR_STR#
参数 <arg_name> 应为 Column、int 或 str,但得到的是 <arg_type>。
NOT_COLUMN_OR_LIST_OR_STR#
参数 <arg_name> 应为 Column、list 或 str,但得到的是 <arg_type>。
NOT_COLUMN_OR_STR#
参数 <arg_name> 应为 Column 或 str,但得到的是 <arg_type>。
NOT_COLUMN_OR_STR_OR_STRUCT#
参数 <arg_name> 应为 StructType、Column 或 str,但得到的是 <arg_type>。
NOT_DATAFRAME#
参数 <arg_name> 应为 DataFrame,但得到的是 <arg_type>。
NOT_DATATYPE_OR_STR#
参数 <arg_name> 应为 DataType 或 str,但得到的是 <arg_type>。
NOT_DICT#
参数 <arg_name> 应为 dict,但得到的是 <arg_type>。
NOT_EXPRESSION#
参数 <arg_name> 应为 Expression,但得到的是 <arg_type>。
NOT_FLOAT_OR_INT#
参数 <arg_name> 应为 float 或 int,但得到的是 <arg_type>。
NOT_FLOAT_OR_INT_OR_LIST_OR_STR#
参数 <arg_name> 应为 float、int、list 或 str,但得到的是 <arg_type>。
NOT_IMPLEMENTED#
<feature> 未实现。
NOT_INT#
参数 <arg_name> 应为 int,但得到的是 <arg_type>。
NOT_INT_OR_SLICE_OR_STR#
参数 <arg_name> 应为 int、slice 或 str,但得到的是 <arg_type>。
NOT_IN_BARRIER_STAGE#
不在屏障阶段。
NOT_ITERABLE#
<objectName> 不可迭代。
NOT_LIST#
参数 <arg_name> 应为 list,但得到的是 <arg_type>。
NOT_LIST_OF_COLUMN#
参数 <arg_name> 应为 list[Column]。
NOT_LIST_OF_COLUMN_OR_STR#
参数 <arg_name> 应为 list[Column]。
NOT_LIST_OF_FLOAT_OR_INT#
参数 <arg_name> 应为 list[float, int],但得到的是 <arg_type>。
NOT_LIST_OF_STR#
参数 <arg_name> 应为 list[str],但得到的是 <arg_type>。
NOT_LIST_OR_NONE_OR_STRUCT#
参数 <arg_name> 应为 list、None 或 StructType,但得到的是 <arg_type>。
NOT_LIST_OR_STR_OR_TUPLE#
参数 <arg_name> 应为 list、str 或 tuple,但得到的是 <arg_type>。
NOT_LIST_OR_TUPLE#
参数 <arg_name> 应为 list 或 tuple,但得到的是 <arg_type>。
NOT_NUMERIC_COLUMNS#
数值聚合函数只能应用于数值列,得到的是 <invalid_columns>。
NOT_OBSERVATION_OR_STR#
参数 <arg_name> 应为 Observation 或 str,但得到的是 <arg_type>。
NOT_SAME_TYPE#
参数 <arg_name1> 和 <arg_name2> 应为相同类型,得到的是 <arg_type1> 和 <arg_type2>。
NOT_STR#
参数 <arg_name> 应为 str,但得到的是 <arg_type>。
NOT_STRUCT#
参数 <arg_name> 应为 struct type,但得到的是 <arg_type>。
NOT_STR_OR_LIST_OF_RDD#
参数 <arg_name> 应为 str 或 list[RDD],但得到的是 <arg_type>。
NOT_STR_OR_STRUCT#
参数 <arg_name> 应为 str 或 struct type,但得到的是 <arg_type>。
NOT_WINDOWSPEC#
参数 <arg_name> 应为 WindowSpec,但得到的是 <arg_type>。
NO_ACTIVE_EXCEPTION#
无活动异常。
NO_ACTIVE_OR_DEFAULT_SESSION#
未找到活动的或默认的 Spark 会话。请在运行代码前创建新的 Spark 会话。
NO_ACTIVE_SESSION#
未找到活动的 Spark 会话。请在运行代码前创建新的 Spark 会话。
NO_OBSERVE_BEFORE_GET#
应在 get 之前通过调用 DataFrame.observe 进行观察。
NO_SCHEMA_AND_DRIVER_DEFAULT_SCHEME#
仅允许 <arg_name> 为不带方案的路径,且 Spark 驱动程序应使用默认方案来确定目标文件系统。
ONLY_ALLOWED_FOR_SINGLE_COLUMN#
参数 <arg_name> 只能为单个列提供。
ONLY_ALLOW_SINGLE_TRIGGER#
仅允许单个触发器。
ONLY_SUPPORTED_WITH_SPARK_CONNECT#
<feature> 仅在 Spark Connect 中受支持;然而,当前的 Spark 会话不使用 Spark Connect。
PACKAGE_NOT_INSTALLED#
必须安装 <package_name> >= <minimum_version>;然而,未找到。
PANDAS_API_ON_SPARK_FAIL_ON_ANSI_MODE#
Pandas API on Spark 在 ANSI 模式下无法正常工作。请将 Spark 配置 ‘spark.sql.ansi.enabled’ 设置为 false。或者,将 pandas-on-spark 选项 ‘compute.fail_on_ansi_mode’ 设置为 False 以强制其工作,尽管这可能会导致意外行为。
PANDAS_UDF_OUTPUT_EXCEEDS_INPUT_ROWS#
Pandas SCALAR_ITER UDF 输出的行数超过了输入的行数。
PIPELINE_SPEC_DICT_KEY_NOT_STRING#
对于流水线规范字段 <field_name>,键应为字符串,但得到的是 <key_type>。
PIPELINE_SPEC_DICT_VALUE_NOT_STRING#
对于流水线规范字段 <field_name>,键 <key_name> 的值应为字符串,但得到的是 <value_type>。
PIPELINE_SPEC_FIELD_NOT_DICT#
流水线规范字段 <field_name> 应为 dict,但得到的是 <field_type>。
PIPELINE_SPEC_FILE_DOES_NOT_EXIST#
流水线规范文件 <spec_path> 不存在。
PIPELINE_SPEC_FILE_NOT_FOUND#
参数中未提供 spark-pipeline.yaml 或 spark-pipeline.yml 文件,或在目录 <dir_path> 或可读的祖先目录中未找到该文件。
PIPELINE_SPEC_INVALID_GLOB_PATTERN#
库中的 glob 模式 <glob_pattern> 无效。仅允许文件路径,或以 /** 结尾的文件夹路径。
PIPELINE_SPEC_MISSING_REQUIRED_FIELD#
流水线规范缺少必需字段 <field_name>。
PIPELINE_SPEC_UNEXPECTED_FIELD#
流水线规范字段 <field_name> 是意外的。
PIPELINE_UNSUPPORTED_DEFINITIONS_FILE_EXTENSION#
流水线定义文件 <file_path> 具有不受支持的扩展名。支持的扩展名为 .py 和 .sql。
PIPE_FUNCTION_EXITED#
管道函数 <func_name> 以错误代码 <error_code> 退出。
PLOT_INVALID_TYPE_COLUMN#
列 <col_name> 必须是 <valid_types> 之一才能绘图,得到的是 <col_type>。
PLOT_NOT_NUMERIC_COLUMN_ARGUMENT#
参数 <arg_name> 必须是数值列才能绘图,得到的是 <arg_type>。
PYTHON_HASH_SEED_NOT_SET#
字符串哈希的随机性应通过 PYTHONHASHSEED 禁用。
PYTHON_STREAMING_DATA_SOURCE_RUNTIME_ERROR#
运行 Python 流式数据源时失败:<msg>
PYTHON_VERSION_MISMATCH#
Worker 中的 Python 版本:<worker_version> 与驱动程序中的版本:<driver_version> 不同,PySpark 无法在不同的小版本下运行。请检查环境变量 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是否设置正确。
RDD_TRANSFORM_ONLY_VALID_ON_DRIVER#
看来您正尝试广播 RDD 或从动作或转换中引用 RDD。RDD 转换和动作只能由驱动程序调用,而不能在其他转换内部调用;例如,rdd1.map(lambda x: rdd2.values.count() * x) 是无效的,因为 values 转换和 count 动作不能在 rdd1.map 转换内部执行。更多信息,请参见 SPARK-5063。
READ_ONLY#
<object> 是只读的。
RESPONSE_ALREADY_RECEIVED#
服务器上出现 <error_type>,但已从中收到响应。
RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDF#
返回的 pyarrow.Table 的列名与指定的模式不匹配。<missing><extra>
RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDTF#
返回的 pyarrow.Table 或 pyarrow.RecordBatch 的列名与指定的模式不匹配。预期:<expected> 实际:<actual>
RESULT_COLUMNS_MISMATCH_FOR_PANDAS_UDF#
返回的 pandas.DataFrame 的列名与指定的模式不匹配。<missing><extra>
RESULT_LENGTH_MISMATCH_FOR_PANDAS_UDF#
返回的 pandas.DataFrame 的列数与指定的模式不匹配。预期:<expected> 实际:<actual>
RESULT_LENGTH_MISMATCH_FOR_SCALAR_ITER_PANDAS_UDF#
Scalar 迭代器 pandas UDF 的输出长度应与输入的长度相同;然而,输出长度为 <output_length>,输入长度为 <input_length>。
RESULT_TYPE_MISMATCH_FOR_ARROW_UDF#
列的数据类型不匹配:<mismatch>。
REUSE_OBSERVATION#
一个 Observation 只能与一个 DataFrame 使用一次。
SCHEMA_MISMATCH_FOR_ARROW_PYTHON_UDF#
来自 <udf_type> 的结果向量不是所需的长度:预期 <expected>,得到的是 <actual>。
SCHEMA_MISMATCH_FOR_PANDAS_UDF#
来自 <udf_type> 的结果向量不是所需的长度:预期 <expected>,得到的是 <actual>。
SESSION_ALREADY_EXIST#
无法启动远程 Spark 会话,因为已经有常规的 Spark 会话在运行。
SESSION_MUTATION_IN_DECLARATIVE_PIPELINE#
声明式流水线中不允许会话变异 <method>。
SESSION_NEED_CONN_STR_OR_BUILDER#
需要连接字符串或 channelBuilder(互斥)来创建新的 SparkSession。
SESSION_NOT_SAME#
两个 Datasets 都必须属于同一个 SparkSession。
SESSION_OR_CONTEXT_EXISTS#
不应该存在现有的 Spark 会话或 Spark 上下文。
SESSION_OR_CONTEXT_NOT_EXISTS#
应首先创建 SparkContext 或 SparkSession。
SLICE_WITH_STEP#
不支持带步长的切片。
STATE_NOT_EXISTS#
状态未定义或已被删除。
STOP_ITERATION_OCCURRED#
捕获到用户代码抛出的 StopIteration;任务失败:<exc>
STOP_ITERATION_OCCURRED_FROM_SCALAR_ITER_PANDAS_UDF#
pandas 迭代器 UDF 应耗尽输入迭代器。
STREAMING_CONNECT_SERIALIZATION_ERROR#
无法序列化函数 <name>。如果您访问了 Spark 会话、函数外部定义的 DataFrame 或包含 Spark 会话的任何对象,请注意它们在 Spark Connect 中是不允许的。对于 foreachBatch,请使用 df.sparkSession 访问 Spark 会话,其中 df 是您 foreachBatch 函数中的第一个参数。对于 StreamingQueryListener,请使用 self.spark 访问 Spark 会话。有关详细信息,请查看 PySpark 关于 foreachBatch 和 StreamingQueryListener 的文档。
ST_INVALID_ALGORITHM_VALUE#
无效或不受支持的边插值算法值:‘<alg>’。
ST_INVALID_CRS_VALUE#
无效或不受支持的 CRS(坐标参考系统)值:‘<crs>’。
ST_INVALID_SRID_VALUE#
无效或不受支持的 SRID(空间参考标识符)值:<srid>。
TEST_CLASS_NOT_COMPILED#
<test_class_path> 不存在。Spark sql 测试类未编译。
TOO_MANY_VALUES#
预期 <item> 有 <expected> 个值,但得到的是 <actual> 个。
TYPE_HINT_SHOULD_BE_SPECIFIED#
应指定 <target> 的类型提示;然而,得到的是 <sig>。
UDF_RETURN_TYPE#
用户定义函数的返回类型应为 <expected>,但实际上是 <actual>。
UDTF_ARROW_TYPE_CAST_ERROR#
无法将类型为 ‘<col_type>’ 的列 ‘<col_name>’ 的输出值转换为该列指定的返回类型:‘<arrow_type>’。请检查数据类型是否匹配,然后重试。
UDTF_ARROW_TYPE_CONVERSION_ERROR#
PyArrow UDTF 必须返回 pyarrow.Table 或 pyarrow.RecordBatch 对象的迭代器。
UDTF_CONSTRUCTOR_INVALID_IMPLEMENTS_ANALYZE_METHOD#
未能评估用户定义的表函数 ‘<name>’,因为其构造函数无效:该函数实现了 ‘analyze’ 方法,但其构造函数有两个以上的参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数接受一个 ‘self’ 参数,或一个 ‘self’ 参数加上 ‘analyze’ 方法结果的另一个参数,然后重试查询。
UDTF_CONSTRUCTOR_INVALID_NO_ANALYZE_METHOD#
未能评估用户定义的表函数 ‘<name>’,因为其构造函数无效:该函数没有实现 ‘analyze’ 方法,且其构造函数有一个以上的参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数只接受一个 ‘self’ 参数,然后重试查询。
UDTF_EVAL_METHOD_ARGUMENTS_DO_NOT_MATCH_SIGNATURE#
未能评估用户定义的表函数 ‘<name>’,因为函数参数与 ‘eval’ 方法的预期签名不匹配 (<reason>)。请更新查询,以便此表函数调用提供与预期签名匹配的参数,或者更新表函数,使其 ‘eval’ 方法接受提供的参数,然后重试查询。
UDTF_EXEC_ERROR#
用户定义的表函数在 ‘<method_name>’ 方法中遇到错误:<error>
UDTF_INVALID_OUTPUT_ROW_TYPE#
UDTF 的 ‘<func>’ 方法中单个输出行的类型无效。每一行都应该是 tuple、list 或 dict,但得到的是 ‘<type>’。请确保输出行具有正确的类型。
UDTF_RETURN_NOT_ITERABLE#
UDTF 的 ‘<func>’ 方法的返回值无效。它应该是一个可迭代对象(例如,生成器或列表),但得到的是 ‘<type>’。请确保 UDTF 返回其中一种类型。
UDTF_RETURN_SCHEMA_MISMATCH#
结果中的列数与指定的模式不匹配。预期列数:<expected>,实际列数:<actual>。请确保 ‘<func>’ 方法返回的值具有与输出模式中指定的相同数量的列。
UDTF_RETURN_TYPE_MISMATCH#
UDTF ‘<name>’ 的返回类型不匹配。预期为 ‘StructType’,但得到的是 ‘<return_type>’。请确保返回类型是格式正确的 StructType。
UDTF_SERIALIZATION_ERROR#
无法序列化 UDTF ‘<name>’:<message>
UNEXPECTED_RESPONSE_FROM_SERVER#
从迭代器服务器收到意外响应。
UNEXPECTED_TUPLE_WITH_STRUCT#
带有 StructType 的意外元组 <tuple>。
UNKNOWN_EXPLAIN_MODE#
未知的解释模式:‘<explain_mode>’。接受的解释模式有 ‘simple’、‘extended’、‘codegen’、‘cost’、‘formatted’。
UNKNOWN_INTERRUPT_TYPE#
未知的中断类型:‘<interrupt_type>’。接受的中断类型有 ‘all’。
UNKNOWN_RESPONSE#
未知响应:<response>。
UNKNOWN_VALUE_FOR#
<var> 的值未知。
UNSUPPORTED_DATA_TYPE#
不支持的数据类型 <data_type>。
UNSUPPORTED_DATA_TYPE_FOR_ARROW#
Arrow 不支持单一数据类型 <data_type>。
UNSUPPORTED_DATA_TYPE_FOR_ARROW_CONVERSION#
<data_type> 在转换为 Arrow 时不受支持。
UNSUPPORTED_DATA_TYPE_FOR_ARROW_VERSION#
<data_type> 仅在 pyarrow 2.0.0 及以上版本中受支持。
UNSUPPORTED_JOIN_TYPE#
不支持的连接类型:‘<typ>’。支持的连接类型包括:<supported>。
UNSUPPORTED_LITERAL#
不支持的字面量 ‘<literal>’。
UNSUPPORTED_LOCAL_CONNECTION_STRING#
不支持使用 local 连接字符串创建新的 SparkSession。
UNSUPPORTED_NUMPY_ARRAY_SCALAR#
数组标量类型 ‘<dtype>’ 不受支持。
UNSUPPORTED_OPERATION#
<operation> 不受支持。
UNSUPPORTED_PACKAGE_VERSION#
必须安装 <package_name> >= <minimum_version>;然而,您的版本是 <current_version>。
UNSUPPORTED_PARAM_TYPE_FOR_HIGHER_ORDER_FUNCTION#
函数 <func_name> 应仅使用 POSITIONAL 或 POSITIONAL OR KEYWORD 参数。
UNSUPPORTED_PIE_PLOT_PARAM#
饼图需要 y 列或 subplots=True。
UNSUPPORTED_PIPELINES_DATASET_TYPE#
不受支持的流水线数据集类型:<dataset_type>。
UNSUPPORTED_PLOT_BACKEND#
<backend> 不受支持,它应该是 <supported_backends> 中的值之一。
UNSUPPORTED_PLOT_BACKEND_PARAM#
<backend> 不支持将 <param> 设置为 <value>,它应该是 <supported_values> 中的值之一。
UNSUPPORTED_PLOT_KIND#
<plot_type> 不受支持,它应该是 <supported_plot_types> 中的值之一。
UNSUPPORTED_SIGNATURE#
不支持的签名:<signature>。
UNSUPPORTED_WITH_ARROW_OPTIMIZATION#
<feature> 在 Python UDF 中启用 Arrow 优化时不受支持。禁用 ‘spark.sql.execution.pythonUDF.arrow.enabled’ 作为替代方案。
VALUE_ALLOWED#
<arg_name> 的值不允许为 <disallowed_value>。
VALUE_NOT_ACCESSIBLE#
值 <value> 不能在任务内部访问。
VALUE_NOT_ALLOWED#
<arg_name> 的值必须在以下值之中:<allowed_values>。
VALUE_NOT_ANY_OR_ALL#
<arg_name> 的值必须为 ‘any’ 或 ‘all’,得到的是 ‘<arg_value>’。
VALUE_NOT_BETWEEN#
<arg_name> 的值必须在 <min> 和 <max> 之间。
VALUE_NOT_NON_EMPTY_STR#
<arg_name> 的值必须为非空字符串,得到的是 ‘<arg_value>’。
VALUE_NOT_PEARSON#
<arg_name> 的值仅支持 ‘pearson’,得到的是 ‘<arg_value>’。
VALUE_NOT_PLAIN_COLUMN_REFERENCE#
<field_name> 中的值 <val> 应为简单的列引用,例如 df.col 或 col(‘column’)。
VALUE_NOT_POSITIVE#
<arg_name> 的值必须为正数,得到的是 ‘<arg_value>’。
VALUE_NOT_TRUE#
<arg_name> 的值必须为 True,得到的是 ‘<arg_value>’。
VALUE_OUT_OF_BOUNDS#
<arg_name> 的值必须在 <lower_bound> 和 <upper_bound> 之间(包含边界),得到的是 <actual>
WRONG_NUM_ARGS_FOR_HIGHER_ORDER_FUNCTION#
函数 <func_name> 应接受 1 到 3 个参数,但提供的函数接受 <num_args> 个参数。
WRONG_NUM_COLUMNS#
函数 <func_name> 应至少接受 <num_cols> 列。
ZERO_INDEX#
索引必须非零。