PySpark 中的错误类#

这是一份 PySpark 返回的常见命名错误类列表,这些错误类定义在 error-conditions.json 中。

在编写 PySpark 错误时,开发人员必须使用列表中的错误类。如果没有合适的错误类,请在列表中添加一个新的。更多信息,请参阅 贡献错误和异常 (Contributing Error and Exception)

APPLICATION_NAME_NOT_SET#

必须在配置中设置应用程序名称。

ARGUMENT_REQUIRED#

当 <condition> 时,参数 <arg_name> 是必需的。

ARROW_LEGACY_IPC_FORMAT#

PySpark 不支持 Arrow 旧版 IPC 格式,请取消设置 ARROW_PRE_0_15_IPC_FORMAT。

ATTEMPT_ANALYSIS_IN_PIPELINE_QUERY_FUNCTION#

在流水线查询函数中不允许执行触发 DataFrame 分析或执行的操作。请将代码移到流水线查询函数之外。

ATTRIBUTE_NOT_CALLABLE#

所提供对象 <obj_name> 中的属性 <attr_name> 不可调用。

ATTRIBUTE_NOT_SUPPORTED#

属性 <attr_name> 不受支持。

AXIS_LENGTH_MISMATCH#

长度不匹配:预期轴有 <expected_length> 个元素,新值有 <actual_length> 个元素。

BROADCAST_VARIABLE_NOT_LOADED#

广播变量 <variable> 未加载。

CALL_BEFORE_INITIALIZE#

不支持在初始化 <object> 之前调用 <func_name>

CANNOT_ACCEPT_OBJECT_IN_TYPE#

<data_type> 不能接受类型为 <obj_type> 的对象 <obj_name>

CANNOT_ACCESS_TO_DUNDER#

Dunder(双下划线)属性仅供内部使用。

CANNOT_APPLY_IN_FOR_COLUMN#

无法对列应用 ‘in’ 运算符:请在字符串列中使用 ‘contains’,或在数组列中使用 ‘array_contains’ 函数。

CANNOT_BE_EMPTY#

必须至少指定一个 <item>。

CANNOT_BE_NONE#

参数 <arg_name> 不能为 None。

CANNOT_CONFIGURE_SPARK_CONNECT#

无法配置 Spark Connect 服务器:现有 [<existing_url>],新配置 [<new_url>]。

CANNOT_CONFIGURE_SPARK_CONNECT_MASTER#

无法同时配置 Spark Connect 服务器和 Spark master:Spark master [<master_url>],Spark Connect [<connect_url>]。

CANNOT_CONVERT_COLUMN_INTO_BOOL#

无法将列转换为布尔值:构建 DataFrame 布尔表达式时,请分别使用 ‘&’ 代替 ‘and’,‘|’ 代替 ‘or’,‘~’ 代替 ‘not’。

CANNOT_CONVERT_TYPE#

无法将 <from_type> 转换为 <to_type>。

CANNOT_DETERMINE_TYPE#

推断后无法确定某些类型。

CANNOT_GET_BATCH_ID#

无法从 <obj_name> 获取批次 ID。

CANNOT_INFER_ARRAY_ELEMENT_TYPE#

无法推断元素数据类型,需要一个以非 None 值开头的非空列表。

CANNOT_INFER_EMPTY_SCHEMA#

无法从空数据集中推断模式。

CANNOT_INFER_SCHEMA_FOR_TYPE#

无法推断类型 <data_type> 的模式。

CANNOT_INFER_TYPE_FOR_FIELD#

无法推断字段 <field_name> 的类型。

CANNOT_MERGE_TYPE#

无法合并类型 <data_type1><data_type2>

CANNOT_OPEN_SOCKET#

无法打开套接字:<errors>。

CANNOT_PARSE_DATATYPE#

无法解析数据类型。<msg>。

CANNOT_PROVIDE_METADATA#

元数据只能为单个列提供。

CANNOT_REGISTER_UDTF#

无法注册 UDTF ‘<name>’:预期为 ‘UserDefinedTableFunction’。请确保 UDTF 正确定义为类,然后将其包装在 udtf() 函数中,或使用 @udtf(…) 进行注解。

CANNOT_SET_TOGETHER#

<arg_list> 不应一起设置。

CANNOT_SPECIFY_RETURN_TYPE_FOR_UDF#

<arg_name> 为用户自定义函数时,不能指定 returnType,但得到的是 <return_type>。

CANNOT_WITHOUT#

没有 <condition2>,无法执行 <condition1>。

CLASSIC_OPERATION_NOT_SUPPORTED_ON_DF#

PySpark Classic 不支持调用属性或成员 ‘<member>’,请改用 Spark Connect。

COLLATION_INVALID_PROVIDER#

值 <provider> 不代表正确的排序规则提供程序。支持的提供程序有:[<supportedProviders>]。

COLUMN_IN_LIST#

<func_name> 不允许列表中包含 Column。

CONFLICTING_PIPELINE_REFRESH_OPTIONS#

–full-refresh-all 选项与 <conflicting_option> 冲突。–full-refresh-all 选项对所有数据集执行完全刷新,因此不允许使用 <conflicting_option> 指定单个数据集。

CONNECT_URL_ALREADY_DEFINED#

只能设置一个 Spark Connect 客户端 URL;然而,从现有的 [<existing_url>] 中得到了不同的 URL [<new_url>]。

CONNECT_URL_NOT_SET#

无法创建 Spark Connect 会话,因为尚未设置 Spark Connect 远程 URL。请通过设置 ‘spark.remote’ 选项或 ‘SPARK_REMOTE’ 环境变量来定义远程 URL。

CONTEXT_ONLY_VALID_ON_DRIVER#

看来您正尝试从广播变量、动作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用,而不能在工作节点运行的代码中使用。更多信息,请参见 SPARK-5063。

CONTEXT_UNAVAILABLE_FOR_REMOTE_CLIENT#

远程客户端无法创建 SparkContext。请改为创建 SparkSession。

DATA_SOURCE_EXTRANEOUS_FILTERS#

<type>.pushFilters() 返回了不属于输入的过滤器。请确保每个返回的过滤器在引用上都是输入过滤器之一。

DATA_SOURCE_INVALID_RETURN_TYPE#

来自 Python 数据源 ‘<name>’ 的不支持的返回类型 (‘<type>’)。预期类型:<supported_types>。

DATA_SOURCE_PUSHDOWN_DISABLED#

<type> 实现了 pushFilters(),但由于配置 ‘<conf>’ 为 false,过滤器下推被禁用。将其设置为 true 以启用过滤器下推。

DATA_SOURCE_RETURN_SCHEMA_MISMATCH#

‘read’ 方法返回的结果中模式不匹配。预期:<expected> 列,发现:<actual> 列。请确保返回的值与所需的输出模式匹配。

DATA_SOURCE_TYPE_MISMATCH#

预期 <expected>,但得到的是 <actual>。

DATA_SOURCE_UNSUPPORTED_FILTER#

意外的过滤器 <name>。

DECORATOR_ARGUMENT_NOT_CALLABLE#

传递给 @<decorator_name> 的第一个位置参数必须是可调用的。要么在函数中使用无参数的 @<decorator_name>,要么使用关键字参数将选项传递给 @<decorator_name>(例如 <example_usage>)。

DIFFERENT_PANDAS_DATAFRAME#

DataFrame 不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_PANDAS_INDEX#

索引不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_PANDAS_MULTIINDEX#

MultiIndices 不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_PANDAS_SERIES#

Series 不相等:左侧:<left> <left_dtype> 右侧:<right> <right_dtype>

DIFFERENT_ROWS#

<error_msg>

DIFFERENT_SCHEMA#

模式不匹配。— 实际 +++ 预期 <error_msg>

DISALLOWED_TYPE_FOR_CONTAINER#

参数 <arg_name> (类型: <arg_type>) 应仅包含 [<allowed_types>] 中的类型,但得到的是 <item_type>

DUPLICATED_ARTIFACT#

重复的制品:<normalized_path>。制品无法被覆盖。

DUPLICATED_FIELD_NAME_IN_ARROW_STRUCT#

不允许在 Arrow Struct 中出现重复的字段名,得到的是 <field_names>

ERROR_OCCURRED_WHILE_CALLING#

调用 <func_name> 时发生错误:<error_msg>。

FIELD_DATA_TYPE_UNACCEPTABLE#

<data_type> 不能接受类型为 <obj_type> 的对象 <obj>。

FIELD_DATA_TYPE_UNACCEPTABLE_WITH_NAME#

<field_name>: <data_type> 不能接受类型为 <obj_type> 的对象 <obj>。

FIELD_NOT_NULLABLE#

字段不可为空,但得到的是 None。

FIELD_NOT_NULLABLE_WITH_NAME#

<field_name>: 该字段不可为空,但得到的是 None。

FIELD_STRUCT_LENGTH_MISMATCH#

对象长度 (<object_length>) 与字段长度 (<field_length>) 不匹配。

FIELD_STRUCT_LENGTH_MISMATCH_WITH_NAME#

<field_name>: 对象长度 (<object_length>) 与字段长度 (<field_length>) 不匹配。

FIELD_TYPE_MISMATCH#

<obj> 不是类型 <data_type> 的实例。

FIELD_TYPE_MISMATCH_WITH_NAME#

<field_name>: <obj> 不是类型 <data_type> 的实例。

GRAPH_ELEMENT_DEFINED_OUTSIDE_OF_DECLARATIVE_PIPELINE#

定义声明式流水线元素的 API 只能在定义流水线的上下文中调用。

HIGHER_ORDER_FUNCTION_SHOULD_RETURN_COLUMN#

函数 <func_name> 应返回 Column,但得到的是 <return_type>。

INCORRECT_CONF_FOR_PROFILE#

spark.python.profilespark.python.profile.memory 配置

必须设置为 true 才能启用 Python 分析。

INDEX_NOT_POSITIVE#

索引必须为正数,得到的是 ‘<index>’。

INDEX_OUT_OF_RANGE#

<arg_name> 索引超出范围,得到的是 ‘<index>’。

INVALID_ARROW_UDTF_RETURN_TYPE#

Arrow 优化后的 Python UDTF 的返回类型应为 ‘pandas.DataFrame’,但 ‘<func>’ 方法返回了类型为 <return_type> 的值:<value>。

INVALID_ARROW_UDTF_TABLE_ARGUMENT#

带有 PARTITION BY 的 Arrow UDTF 必须具有导致 PyArrow RecordBatch 的 TABLE 参数,但得到的是 <actual_type>。

INVALID_ARROW_UDTF_WITH_ANALYZE#

Arrow UDTF ‘<name>’ 无效。Arrow UDTF 不支持 ‘analyze’ 方法。请从 ‘<name>’ 中移除 ‘analyze’ 方法并指定返回类型。

INVALID_BROADCAST_OPERATION#

广播只能在驱动程序中 <operation>。

INVALID_CALL_ON_UNRESOLVED_OBJECT#

对未解析的对象调用 <func_name> 无效。

INVALID_CONNECT_URL#

Spark Connect 的 URL 无效:<detail>

INVALID_INTERVAL_CASTING#

从 <start_field> 到 <end_field> 的间隔无效。

INVALID_ITEM_FOR_CONTAINER#

<arg_name> 中的所有项目都应在 <allowed_types> 中,但得到的是 <item_type>。

INVALID_JSON_DATA_TYPE_FOR_COLLATIONS#

排序规则只能应用于字符串类型,但 JSON 数据类型为 <jsonType>。

INVALID_MULTIPLE_ARGUMENT_CONDITIONS#

[{arg_names}] 不能为 <condition>。

INVALID_NDARRAY_DIMENSION#

NumPy 数组输入应具有 <dimensions> 维度。

INVALID_NUMBER_OF_DATAFRAMES_IN_GROUP#

组 <dataframes_in_group> 中的 DataFrame 数量无效。

INVALID_PANDAS_UDF#

函数无效:<detail>

INVALID_PANDAS_UDF_TYPE#

<arg_name> 应为 PandasUDFType 中的值之一,但得到的是 <arg_type>

INVALID_RETURN_TYPE_FOR_ARROW_UDF#

分组和协同分组映射 Arrow UDF 应为 <eval_type> 返回 StructType,但得到的是 <return_type>。

INVALID_RETURN_TYPE_FOR_PANDAS_UDF#

Pandas UDF 应为 <eval_type> 返回 StructType,但得到的是 <return_type>。

INVALID_SESSION_UUID_ID#

参数值 <arg_name> 必须是有效的 UUID 格式:<origin>

INVALID_TIMEOUT_TIMESTAMP#

超时时间戳 (<timestamp>) 不能早于当前水位 (<watermark>)。

INVALID_TYPE#

参数 <arg_name> 不应为 <arg_type>。

INVALID_TYPENAME_CALL#

StructField 没有 typeName。请明确使用其类型上的 typeName。

INVALID_TYPE_DF_EQUALITY_ARG#

预期 <arg_name> 的类型为 <expected_type>,但得到的是类型 <actual_type>。

INVALID_UDF_EVAL_TYPE#

UDF 的评估类型必须为 <eval_type>。

INVALID_UDTF_BOTH_RETURN_TYPE_AND_ANALYZE#

UDTF ‘<name>’ 无效。它同时具有返回类型和 ‘analyze’ 属性。请确保它仅具有返回类型或 ‘analyze’ 静态方法中的一个,然后重试。

INVALID_UDTF_EVAL_TYPE#

UDTF ‘<name>’ 的评估类型无效。它必须是 <eval_type> 之一。

INVALID_UDTF_HANDLER_TYPE#

UDTF 无效。函数处理程序必须是一个类,但得到的是 ‘<type>’。请提供一个类作为函数处理程序。

INVALID_UDTF_NO_EVAL#

UDTF ‘<name>’ 无效。它没有实现所需的 ‘eval’ 方法。请在 ‘<name>’ 中实现 ‘eval’ 方法,然后重试。

INVALID_UDTF_RETURN_TYPE#

UDTF ‘<name>’ 无效。它没有指定其返回类型或实现所需的 ‘analyze’ 静态方法。请在 ‘<name>’ 中指定返回类型或实现 ‘analyze’ 静态方法,然后重试。

INVALID_WHEN_USAGE#

when() 只能应用于先前由 when() 函数生成的列,且一旦应用了 otherwise(),则不能再应用。

INVALID_WINDOW_BOUND_TYPE#

窗口边界类型无效:<window_bound_type>。

JAVA_GATEWAY_EXITED#

Java 网关进程在发送其端口号之前退出。

JVM_ATTRIBUTE_NOT_SUPPORTED#

属性 <attr_name> 在 Spark Connect 中不受支持,因为它依赖于 JVM。如果您需要使用此属性,请在创建会话时不要使用 Spark Connect。访问 https://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession 获取关于创建常规 Spark 会话的详细信息。

KEY_NOT_EXISTS#

<key> 不存在。

KEY_VALUE_PAIR_REQUIRED#

需要键值对或键值对列表。

LENGTH_SHOULD_BE_THE_SAME#

<arg1> 和 <arg2> 的长度应相同,得到的是 <arg1_length> 和 <arg2_length>。

MALFORMED_GEOGRAPHY#

地理二进制格式不正确。请检查数据源是否有效。

MALFORMED_GEOMETRY#

几何二进制格式不正确。请检查数据源是否有效。

MALFORMED_VARIANT#

变体二进制格式不正确。请检查数据源是否有效。

MASTER_URL_INVALID#

Master 必须是 yarn,或者以 spark、k8s 或 local 开头。

MASTER_URL_NOT_SET#

必须在配置中设置 master URL。

MEMORY_PROFILE_INVALID_SOURCE#

内存分析器只能在带行号的编辑器上使用。

MISSING_LIBRARY_FOR_PROFILER#

在集群中安装 ‘memory_profiler’ 库以启用内存分析。

MISSING_VALID_PLAN#

<operator> 的参数不包含有效的计划。

MIXED_TYPE_REPLACEMENT#

不支持混合类型的替换。

MULTIPLE_PIPELINE_SPEC_FILES_FOUND#

在目录 <dir_path> 中找到多个流水线规范文件。请删除其中一个,或使用 –spec 参数选择特定的一个。

NEGATIVE_VALUE#

<arg_name> 的值必须大于或等于 0,得到的是 ‘<arg_value>’。

NOT_BOOL#

参数 <arg_name> 应为 bool,但得到的是 <arg_type>。

NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 bool、dict、float、int、str 或 tuple,但得到的是 <arg_type>。

NOT_BOOL_OR_DICT_OR_FLOAT_OR_INT_OR_STR#

参数 <arg_name> 应为 bool、dict、float、int 或 str,但得到的是 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT#

参数 <arg_name> 应为 bool、float 或 int,但得到的是 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT_OR_LIST_OR_NONE_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 bool、float、int、list、None、str 或 tuple,但得到的是 <arg_type>。

NOT_BOOL_OR_FLOAT_OR_INT_OR_STR#

参数 <arg_name> 应为 bool、float、int 或 str,但得到的是 <arg_type>。

NOT_BOOL_OR_LIST#

参数 <arg_name> 应为 bool 或 list,但得到的是 <arg_type>。

NOT_BOOL_OR_STR#

参数 <arg_name> 应为 bool 或 str,但得到的是 <arg_type>。

NOT_CALLABLE#

参数 <arg_name> 应为 callable,但得到的是 <arg_type>。

NOT_COLUMN#

参数 <arg_name> 应为 Column,但得到的是 <arg_type>。

NOT_COLUMN_OR_DATATYPE_OR_STR#

参数 <arg_name> 应为 Column、str 或 DataType,但得到的是 <arg_type>。

NOT_COLUMN_OR_FLOAT_OR_INT_OR_LIST_OR_STR#

参数 <arg_name> 应为 Column、float、integer、list 或 string,但得到的是 <arg_type>。

NOT_COLUMN_OR_INT#

参数 <arg_name> 应为 Column 或 int,但得到的是 <arg_type>。

NOT_COLUMN_OR_INT_OR_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 Column、int、list、str 或 tuple,但得到的是 <arg_type>。

NOT_COLUMN_OR_INT_OR_STR#

参数 <arg_name> 应为 Column、int 或 str,但得到的是 <arg_type>。

NOT_COLUMN_OR_LIST_OR_STR#

参数 <arg_name> 应为 Column、list 或 str,但得到的是 <arg_type>。

NOT_COLUMN_OR_STR#

参数 <arg_name> 应为 Column 或 str,但得到的是 <arg_type>。

NOT_COLUMN_OR_STR_OR_STRUCT#

参数 <arg_name> 应为 StructType、Column 或 str,但得到的是 <arg_type>。

NOT_DATAFRAME#

参数 <arg_name> 应为 DataFrame,但得到的是 <arg_type>。

NOT_DATATYPE_OR_STR#

参数 <arg_name> 应为 DataType 或 str,但得到的是 <arg_type>。

NOT_DICT#

参数 <arg_name> 应为 dict,但得到的是 <arg_type>。

NOT_EXPRESSION#

参数 <arg_name> 应为 Expression,但得到的是 <arg_type>。

NOT_FLOAT_OR_INT#

参数 <arg_name> 应为 float 或 int,但得到的是 <arg_type>。

NOT_FLOAT_OR_INT_OR_LIST_OR_STR#

参数 <arg_name> 应为 float、int、list 或 str,但得到的是 <arg_type>。

NOT_IMPLEMENTED#

<feature> 未实现。

NOT_INT#

参数 <arg_name> 应为 int,但得到的是 <arg_type>。

NOT_INT_OR_SLICE_OR_STR#

参数 <arg_name> 应为 int、slice 或 str,但得到的是 <arg_type>。

NOT_IN_BARRIER_STAGE#

不在屏障阶段。

NOT_ITERABLE#

<objectName> 不可迭代。

NOT_LIST#

参数 <arg_name> 应为 list,但得到的是 <arg_type>。

NOT_LIST_OF_COLUMN#

参数 <arg_name> 应为 list[Column]。

NOT_LIST_OF_COLUMN_OR_STR#

参数 <arg_name> 应为 list[Column]。

NOT_LIST_OF_FLOAT_OR_INT#

参数 <arg_name> 应为 list[float, int],但得到的是 <arg_type>。

NOT_LIST_OF_STR#

参数 <arg_name> 应为 list[str],但得到的是 <arg_type>。

NOT_LIST_OR_NONE_OR_STRUCT#

参数 <arg_name> 应为 list、None 或 StructType,但得到的是 <arg_type>。

NOT_LIST_OR_STR_OR_TUPLE#

参数 <arg_name> 应为 list、str 或 tuple,但得到的是 <arg_type>。

NOT_LIST_OR_TUPLE#

参数 <arg_name> 应为 list 或 tuple,但得到的是 <arg_type>。

NOT_NUMERIC_COLUMNS#

数值聚合函数只能应用于数值列,得到的是 <invalid_columns>。

NOT_OBSERVATION_OR_STR#

参数 <arg_name> 应为 Observation 或 str,但得到的是 <arg_type>。

NOT_SAME_TYPE#

参数 <arg_name1><arg_name2> 应为相同类型,得到的是 <arg_type1> 和 <arg_type2>。

NOT_STR#

参数 <arg_name> 应为 str,但得到的是 <arg_type>。

NOT_STRUCT#

参数 <arg_name> 应为 struct type,但得到的是 <arg_type>。

NOT_STR_OR_LIST_OF_RDD#

参数 <arg_name> 应为 str 或 list[RDD],但得到的是 <arg_type>。

NOT_STR_OR_STRUCT#

参数 <arg_name> 应为 str 或 struct type,但得到的是 <arg_type>。

NOT_WINDOWSPEC#

参数 <arg_name> 应为 WindowSpec,但得到的是 <arg_type>。

NO_ACTIVE_EXCEPTION#

无活动异常。

NO_ACTIVE_OR_DEFAULT_SESSION#

未找到活动的或默认的 Spark 会话。请在运行代码前创建新的 Spark 会话。

NO_ACTIVE_SESSION#

未找到活动的 Spark 会话。请在运行代码前创建新的 Spark 会话。

NO_OBSERVE_BEFORE_GET#

应在 get 之前通过调用 DataFrame.observe 进行观察。

NO_SCHEMA_AND_DRIVER_DEFAULT_SCHEME#

仅允许 <arg_name> 为不带方案的路径,且 Spark 驱动程序应使用默认方案来确定目标文件系统。

ONLY_ALLOWED_FOR_SINGLE_COLUMN#

参数 <arg_name> 只能为单个列提供。

ONLY_ALLOW_SINGLE_TRIGGER#

仅允许单个触发器。

ONLY_SUPPORTED_WITH_SPARK_CONNECT#

<feature> 仅在 Spark Connect 中受支持;然而,当前的 Spark 会话不使用 Spark Connect。

PACKAGE_NOT_INSTALLED#

必须安装 <package_name> >= <minimum_version>;然而,未找到。

PANDAS_API_ON_SPARK_FAIL_ON_ANSI_MODE#

Pandas API on Spark 在 ANSI 模式下无法正常工作。请将 Spark 配置 ‘spark.sql.ansi.enabled’ 设置为 false。或者,将 pandas-on-spark 选项 ‘compute.fail_on_ansi_mode’ 设置为 False 以强制其工作,尽管这可能会导致意外行为。

PANDAS_UDF_OUTPUT_EXCEEDS_INPUT_ROWS#

Pandas SCALAR_ITER UDF 输出的行数超过了输入的行数。

PIPELINE_SPEC_DICT_KEY_NOT_STRING#

对于流水线规范字段 <field_name>,键应为字符串,但得到的是 <key_type>。

PIPELINE_SPEC_DICT_VALUE_NOT_STRING#

对于流水线规范字段 <field_name>,键 <key_name> 的值应为字符串,但得到的是 <value_type>。

PIPELINE_SPEC_FIELD_NOT_DICT#

流水线规范字段 <field_name> 应为 dict,但得到的是 <field_type>。

PIPELINE_SPEC_FILE_DOES_NOT_EXIST#

流水线规范文件 <spec_path> 不存在。

PIPELINE_SPEC_FILE_NOT_FOUND#

参数中未提供 spark-pipeline.yaml 或 spark-pipeline.yml 文件,或在目录 <dir_path> 或可读的祖先目录中未找到该文件。

PIPELINE_SPEC_INVALID_GLOB_PATTERN#

库中的 glob 模式 <glob_pattern> 无效。仅允许文件路径,或以 /** 结尾的文件夹路径。

PIPELINE_SPEC_MISSING_REQUIRED_FIELD#

流水线规范缺少必需字段 <field_name>

PIPELINE_SPEC_UNEXPECTED_FIELD#

流水线规范字段 <field_name> 是意外的。

PIPELINE_UNSUPPORTED_DEFINITIONS_FILE_EXTENSION#

流水线定义文件 <file_path> 具有不受支持的扩展名。支持的扩展名为 .py.sql

PIPE_FUNCTION_EXITED#

管道函数 <func_name> 以错误代码 <error_code> 退出。

PLOT_INVALID_TYPE_COLUMN#

列 <col_name> 必须是 <valid_types> 之一才能绘图,得到的是 <col_type>。

PLOT_NOT_NUMERIC_COLUMN_ARGUMENT#

参数 <arg_name> 必须是数值列才能绘图,得到的是 <arg_type>。

PYTHON_HASH_SEED_NOT_SET#

字符串哈希的随机性应通过 PYTHONHASHSEED 禁用。

PYTHON_STREAMING_DATA_SOURCE_RUNTIME_ERROR#

运行 Python 流式数据源时失败:<msg>

PYTHON_VERSION_MISMATCH#

Worker 中的 Python 版本:<worker_version> 与驱动程序中的版本:<driver_version> 不同,PySpark 无法在不同的小版本下运行。请检查环境变量 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是否设置正确。

RDD_TRANSFORM_ONLY_VALID_ON_DRIVER#

看来您正尝试广播 RDD 或从动作或转换中引用 RDD。RDD 转换和动作只能由驱动程序调用,而不能在其他转换内部调用;例如,rdd1.map(lambda x: rdd2.values.count() * x) 是无效的,因为 values 转换和 count 动作不能在 rdd1.map 转换内部执行。更多信息,请参见 SPARK-5063。

READ_ONLY#

<object> 是只读的。

RESPONSE_ALREADY_RECEIVED#

服务器上出现 <error_type>,但已从中收到响应。

RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDF#

返回的 pyarrow.Table 的列名与指定的模式不匹配。<missing><extra>

RESULT_COLUMNS_MISMATCH_FOR_ARROW_UDTF#

返回的 pyarrow.Table 或 pyarrow.RecordBatch 的列名与指定的模式不匹配。预期:<expected> 实际:<actual>

RESULT_COLUMNS_MISMATCH_FOR_PANDAS_UDF#

返回的 pandas.DataFrame 的列名与指定的模式不匹配。<missing><extra>

RESULT_LENGTH_MISMATCH_FOR_PANDAS_UDF#

返回的 pandas.DataFrame 的列数与指定的模式不匹配。预期:<expected> 实际:<actual>

RESULT_LENGTH_MISMATCH_FOR_SCALAR_ITER_PANDAS_UDF#

Scalar 迭代器 pandas UDF 的输出长度应与输入的长度相同;然而,输出长度为 <output_length>,输入长度为 <input_length>。

RESULT_TYPE_MISMATCH_FOR_ARROW_UDF#

列的数据类型不匹配:<mismatch>。

REUSE_OBSERVATION#

一个 Observation 只能与一个 DataFrame 使用一次。

SCHEMA_MISMATCH_FOR_ARROW_PYTHON_UDF#

来自 <udf_type> 的结果向量不是所需的长度:预期 <expected>,得到的是 <actual>。

SCHEMA_MISMATCH_FOR_PANDAS_UDF#

来自 <udf_type> 的结果向量不是所需的长度:预期 <expected>,得到的是 <actual>。

SESSION_ALREADY_EXIST#

无法启动远程 Spark 会话,因为已经有常规的 Spark 会话在运行。

SESSION_MUTATION_IN_DECLARATIVE_PIPELINE#

声明式流水线中不允许会话变异 <method>。

SESSION_NEED_CONN_STR_OR_BUILDER#

需要连接字符串或 channelBuilder(互斥)来创建新的 SparkSession。

SESSION_NOT_SAME#

两个 Datasets 都必须属于同一个 SparkSession。

SESSION_OR_CONTEXT_EXISTS#

不应该存在现有的 Spark 会话或 Spark 上下文。

SESSION_OR_CONTEXT_NOT_EXISTS#

应首先创建 SparkContext 或 SparkSession。

SLICE_WITH_STEP#

不支持带步长的切片。

STATE_NOT_EXISTS#

状态未定义或已被删除。

STOP_ITERATION_OCCURRED#

捕获到用户代码抛出的 StopIteration;任务失败:<exc>

STOP_ITERATION_OCCURRED_FROM_SCALAR_ITER_PANDAS_UDF#

pandas 迭代器 UDF 应耗尽输入迭代器。

STREAMING_CONNECT_SERIALIZATION_ERROR#

无法序列化函数 <name>。如果您访问了 Spark 会话、函数外部定义的 DataFrame 或包含 Spark 会话的任何对象,请注意它们在 Spark Connect 中是不允许的。对于 foreachBatch,请使用 df.sparkSession 访问 Spark 会话,其中 df 是您 foreachBatch 函数中的第一个参数。对于 StreamingQueryListener,请使用 self.spark 访问 Spark 会话。有关详细信息,请查看 PySpark 关于 foreachBatchStreamingQueryListener 的文档。

ST_INVALID_ALGORITHM_VALUE#

无效或不受支持的边插值算法值:‘<alg>’。

ST_INVALID_CRS_VALUE#

无效或不受支持的 CRS(坐标参考系统)值:‘<crs>’。

ST_INVALID_SRID_VALUE#

无效或不受支持的 SRID(空间参考标识符)值:<srid>。

TEST_CLASS_NOT_COMPILED#

<test_class_path> 不存在。Spark sql 测试类未编译。

TOO_MANY_VALUES#

预期 <item> 有 <expected> 个值,但得到的是 <actual> 个。

TYPE_HINT_SHOULD_BE_SPECIFIED#

应指定 <target> 的类型提示;然而,得到的是 <sig>。

UDF_RETURN_TYPE#

用户定义函数的返回类型应为 <expected>,但实际上是 <actual>。

UDTF_ARROW_TYPE_CAST_ERROR#

无法将类型为 ‘<col_type>’ 的列 ‘<col_name>’ 的输出值转换为该列指定的返回类型:‘<arrow_type>’。请检查数据类型是否匹配,然后重试。

UDTF_ARROW_TYPE_CONVERSION_ERROR#

PyArrow UDTF 必须返回 pyarrow.Table 或 pyarrow.RecordBatch 对象的迭代器。

UDTF_CONSTRUCTOR_INVALID_IMPLEMENTS_ANALYZE_METHOD#

未能评估用户定义的表函数 ‘<name>’,因为其构造函数无效:该函数实现了 ‘analyze’ 方法,但其构造函数有两个以上的参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数接受一个 ‘self’ 参数,或一个 ‘self’ 参数加上 ‘analyze’ 方法结果的另一个参数,然后重试查询。

UDTF_CONSTRUCTOR_INVALID_NO_ANALYZE_METHOD#

未能评估用户定义的表函数 ‘<name>’,因为其构造函数无效:该函数没有实现 ‘analyze’ 方法,且其构造函数有一个以上的参数(包括 ‘self’ 引用)。请更新表函数,使其构造函数只接受一个 ‘self’ 参数,然后重试查询。

UDTF_EVAL_METHOD_ARGUMENTS_DO_NOT_MATCH_SIGNATURE#

未能评估用户定义的表函数 ‘<name>’,因为函数参数与 ‘eval’ 方法的预期签名不匹配 (<reason>)。请更新查询,以便此表函数调用提供与预期签名匹配的参数,或者更新表函数,使其 ‘eval’ 方法接受提供的参数,然后重试查询。

UDTF_EXEC_ERROR#

用户定义的表函数在 ‘<method_name>’ 方法中遇到错误:<error>

UDTF_INVALID_OUTPUT_ROW_TYPE#

UDTF 的 ‘<func>’ 方法中单个输出行的类型无效。每一行都应该是 tuple、list 或 dict,但得到的是 ‘<type>’。请确保输出行具有正确的类型。

UDTF_RETURN_NOT_ITERABLE#

UDTF 的 ‘<func>’ 方法的返回值无效。它应该是一个可迭代对象(例如,生成器或列表),但得到的是 ‘<type>’。请确保 UDTF 返回其中一种类型。

UDTF_RETURN_SCHEMA_MISMATCH#

结果中的列数与指定的模式不匹配。预期列数:<expected>,实际列数:<actual>。请确保 ‘<func>’ 方法返回的值具有与输出模式中指定的相同数量的列。

UDTF_RETURN_TYPE_MISMATCH#

UDTF ‘<name>’ 的返回类型不匹配。预期为 ‘StructType’,但得到的是 ‘<return_type>’。请确保返回类型是格式正确的 StructType。

UDTF_SERIALIZATION_ERROR#

无法序列化 UDTF ‘<name>’:<message>

UNEXPECTED_RESPONSE_FROM_SERVER#

从迭代器服务器收到意外响应。

UNEXPECTED_TUPLE_WITH_STRUCT#

带有 StructType 的意外元组 <tuple>。

UNKNOWN_EXPLAIN_MODE#

未知的解释模式:‘<explain_mode>’。接受的解释模式有 ‘simple’、‘extended’、‘codegen’、‘cost’、‘formatted’。

UNKNOWN_INTERRUPT_TYPE#

未知的中断类型:‘<interrupt_type>’。接受的中断类型有 ‘all’。

UNKNOWN_RESPONSE#

未知响应:<response>。

UNKNOWN_VALUE_FOR#

<var> 的值未知。

UNSUPPORTED_DATA_TYPE#

不支持的数据类型 <data_type>

UNSUPPORTED_DATA_TYPE_FOR_ARROW#

Arrow 不支持单一数据类型 <data_type>。

UNSUPPORTED_DATA_TYPE_FOR_ARROW_CONVERSION#

<data_type> 在转换为 Arrow 时不受支持。

UNSUPPORTED_DATA_TYPE_FOR_ARROW_VERSION#

<data_type> 仅在 pyarrow 2.0.0 及以上版本中受支持。

UNSUPPORTED_JOIN_TYPE#

不支持的连接类型:‘<typ>’。支持的连接类型包括:<supported>。

UNSUPPORTED_LITERAL#

不支持的字面量 ‘<literal>’。

UNSUPPORTED_LOCAL_CONNECTION_STRING#

不支持使用 local 连接字符串创建新的 SparkSession。

UNSUPPORTED_NUMPY_ARRAY_SCALAR#

数组标量类型 ‘<dtype>’ 不受支持。

UNSUPPORTED_OPERATION#

<operation> 不受支持。

UNSUPPORTED_PACKAGE_VERSION#

必须安装 <package_name> >= <minimum_version>;然而,您的版本是 <current_version>。

UNSUPPORTED_PARAM_TYPE_FOR_HIGHER_ORDER_FUNCTION#

函数 <func_name> 应仅使用 POSITIONAL 或 POSITIONAL OR KEYWORD 参数。

UNSUPPORTED_PIE_PLOT_PARAM#

饼图需要 y 列或 subplots=True

UNSUPPORTED_PIPELINES_DATASET_TYPE#

不受支持的流水线数据集类型:<dataset_type>。

UNSUPPORTED_PLOT_BACKEND#

<backend> 不受支持,它应该是 <supported_backends> 中的值之一。

UNSUPPORTED_PLOT_BACKEND_PARAM#

<backend> 不支持将 <param> 设置为 <value>,它应该是 <supported_values> 中的值之一。

UNSUPPORTED_PLOT_KIND#

<plot_type> 不受支持,它应该是 <supported_plot_types> 中的值之一。

UNSUPPORTED_SIGNATURE#

不支持的签名:<signature>。

UNSUPPORTED_WITH_ARROW_OPTIMIZATION#

<feature> 在 Python UDF 中启用 Arrow 优化时不受支持。禁用 ‘spark.sql.execution.pythonUDF.arrow.enabled’ 作为替代方案。

VALUE_ALLOWED#

<arg_name> 的值不允许为 <disallowed_value>。

VALUE_NOT_ACCESSIBLE#

<value> 不能在任务内部访问。

VALUE_NOT_ALLOWED#

<arg_name> 的值必须在以下值之中:<allowed_values>。

VALUE_NOT_ANY_OR_ALL#

<arg_name> 的值必须为 ‘any’ 或 ‘all’,得到的是 ‘<arg_value>’。

VALUE_NOT_BETWEEN#

<arg_name> 的值必须在 <min> 和 <max> 之间。

VALUE_NOT_NON_EMPTY_STR#

<arg_name> 的值必须为非空字符串,得到的是 ‘<arg_value>’。

VALUE_NOT_PEARSON#

<arg_name> 的值仅支持 ‘pearson’,得到的是 ‘<arg_value>’。

VALUE_NOT_PLAIN_COLUMN_REFERENCE#

<field_name> 中的值 <val> 应为简单的列引用,例如 df.colcol(‘column’)

VALUE_NOT_POSITIVE#

<arg_name> 的值必须为正数,得到的是 ‘<arg_value>’。

VALUE_NOT_TRUE#

<arg_name> 的值必须为 True,得到的是 ‘<arg_value>’。

VALUE_OUT_OF_BOUNDS#

<arg_name> 的值必须在 <lower_bound> 和 <upper_bound> 之间(包含边界),得到的是 <actual>

WRONG_NUM_ARGS_FOR_HIGHER_ORDER_FUNCTION#

函数 <func_name> 应接受 1 到 3 个参数,但提供的函数接受 <num_args> 个参数。

WRONG_NUM_COLUMNS#

函数 <func_name> 应至少接受 <num_cols> 列。

ZERO_INDEX#

索引必须非零。