Spark 上的 Pandas API# 选项和设置 获取和设置选项 不同 DataFrame 上的操作 默认索引类型 可用选项 从/到 pandas 和 PySpark DataFrames pandas PySpark 转换和应用函数 transform 和 apply pandas_on_spark.transform_batch 和 pandas_on_spark.apply_batch Spark 上的 Pandas API 中的类型支持 PySpark 和 Spark 上的 Pandas API 之间的类型转换 pandas 和 Spark 上的 Pandas API 之间的类型转换 内部类型映射 Spark 上的 Pandas API 中的类型提示 Spark 上的 Pandas DataFrame 和 Pandas DataFrame 带名称的类型提示 带索引的类型提示 从/到其他 DBMS 读写 DataFrames 最佳实践 利用 PySpark API 检查执行计划 使用检查点 避免混洗 避免在单个分区上计算 避免使用保留列名 不要使用重复的列名 在从 Spark DataFrame 转换为 Spark 上的 Pandas DataFrame 时指定索引列 使用 distributed 或 distributed-sequence 默认索引 使用 distributed-sequence 处理索引不对齐 减少对不同 DataFrame/Series 的操作 尽可能直接使用 Spark 上的 Pandas API 支持的 pandas API CategoricalIndex API DataFrame API DatetimeIndex API Index API MultiIndex API Series API TimedeltaIndex API 通用函数 API Expanding API ExpandingGroupby API Rolling API RollingGroupby API Window API DataFrameGroupBy API GroupBy API SeriesGroupBy API 常见问题 我应该使用 PySpark 的 DataFrame API 还是 Spark 上的 Pandas API? Spark 上的 Pandas API 支持结构化流处理吗? Spark 上的 Pandas API 与 Dask 有何不同?