Spark SQL# PySpark 中的 Apache Arrow 确保 PyArrow 已安装 转换为/从 Arrow 表 启用转换为/从 Pandas Pandas UDFs (又名向量化 UDFs) Pandas 函数 API Arrow Python UDFs 使用须知 Python 用户定义表函数 (UDTFs) 实现 Python UDTF 定义输出 Schema 发出输出行 在 SQL 中注册和使用 Python UDTFs Arrow 优化 带标量参数的 UDTF 示例 接受输入表参数 Python 数据源 API 概览 简单示例 创建 Python 数据源 实现 Python 数据源的批处理读写器 实现 Python 数据源的流式读写器 序列化要求 使用 Python 数据源 支持直接 Arrow Batch 的 Python 数据源读取器以提高性能 使用须知 Python 到 Spark 类型转换 浏览类型转换 配置 所有转换 实践中的转换 - UDFs 实践中的转换 - 创建 DataFrames 实践中的转换 - 嵌套数据类型