Parquet 文件

编程方式加载数据
分区发现
模式合并
Hive metastore Parquet 表转换
- Hive/Parquet 模式协调
- 元数据刷新
列式加密
- KMS 客户端
数据源选项
- 配置

Parquet 是一种列式存储格式，受许多其他数据处理系统支持。Spark SQL 支持读取和写入 Parquet 文件，并自动保留原始数据的模式。读取 Parquet 文件时，为兼容性考虑，所有列都会自动转换为可为空。

编程方式加载数据

使用上述示例中的数据

peopleDF = spark.read.json("examples/src/main/resources/people.json")

# DataFrames can be saved as Parquet files, maintaining the schema information.
peopleDF.write.parquet("people.parquet")

# Read in the Parquet file created above.
# Parquet files are self-describing so the schema is preserved.
# The result of loading a parquet file is also a DataFrame.
parquetFile = spark.read.parquet("people.parquet")

# Parquet files can also be used to create a temporary view and then used in SQL statements.
parquetFile.createOrReplaceTempView("parquetFile")
teenagers = spark.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")
teenagers.show()
# +------+
# |  name|
# +------+
# |Justin|
# +------+

完整的示例代码可在 Spark 仓库中的 "examples/src/main/python/sql/datasource.py" 找到。

// Encoders for most common types are automatically provided by importing spark.implicits._
import spark.implicits._

val peopleDF = spark.read.json("examples/src/main/resources/people.json")

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write.parquet("people.parquet")

// Read in the parquet file created above
// Parquet files are self-describing so the schema is preserved
// The result of loading a Parquet file is also a DataFrame
val parquetFileDF = spark.read.parquet("people.parquet")

// Parquet files can also be used to create a temporary view and then used in SQL statements
parquetFileDF.createOrReplaceTempView("parquetFile")
val namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19")
namesDF.map(attributes => "Name: " + attributes(0)).show()
// +------------+
// |       value|
// +------------+
// |Name: Justin|
// +------------+

完整的示例代码可在 Spark 仓库中的 "examples/src/main/scala/org/apache/spark/examples/sql/SQLDataSourceExample.scala" 找到。

import org.apache.spark.api.java.function.MapFunction;
import org.apache.spark.sql.Encoders;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");

// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");

// Parquet files can also be used to create a temporary view and then used in SQL statements
parquetFileDF.createOrReplaceTempView("parquetFile");
Dataset<Row> namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19");
Dataset<String> namesDS = namesDF.map(
    (MapFunction<Row, String>) row -> "Name: " + row.getString(0),
    Encoders.STRING());
namesDS.show();
// +------------+
// |       value|
// +------------+
// |Name: Justin|
// +------------+

完整的示例代码可在 Spark 仓库中的 "examples/src/main/java/org/apache/spark/examples/sql/JavaSQLDataSourceExample.java" 找到。

df <- read.df("examples/src/main/resources/people.json", "json")

# SparkDataFrame can be saved as Parquet files, maintaining the schema information.
write.parquet(df, "people.parquet")

# Read in the Parquet file created above. Parquet files are self-describing so the schema is preserved.
# The result of loading a parquet file is also a DataFrame.
parquetFile <- read.parquet("people.parquet")

# Parquet files can also be used to create a temporary view and then used in SQL statements.
createOrReplaceTempView(parquetFile, "parquetFile")
teenagers <- sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")
head(teenagers)
##     name
## 1 Justin

# We can also run custom R-UDFs on Spark DataFrames. Here we prefix all the names with "Name:"
schema <- structType(structField("name", "string"))
teenNames <- dapply(df, function(p) { cbind(paste("Name:", p$name)) }, schema)
for (teenName in collect(teenNames)$name) {
  cat(teenName, "\n")
}
## Name: Michael
## Name: Andy
## Name: Justin

完整的示例代码可在 Spark 仓库中的 "examples/src/main/r/RSparkSQLExample.R" 找到。

CREATE TEMPORARY VIEW parquetTable
USING org.apache.spark.sql.parquet
OPTIONS (
  path "examples/src/main/resources/people.parquet"
)

SELECT * FROM parquetTable

分区发现

表分区是 Hive 等系统中常用的一种优化方法。在分区表中，数据通常存储在不同的目录中，每个分区目录的路径中都编码了分区列的值。所有内置的文件源（包括 Text/CSV/JSON/ORC/Parquet）都能够自动发现并推断分区信息。例如，我们可以使用以下目录结构将我们之前使用的人口数据存储到分区表中，其中 gender 和 country 是两个额外的分区列：

path
└── to
    └── table
        ├── gender=male
        │   ├── ...
        │   │
        │   ├── country=US
        │   │   └── data.parquet
        │   ├── country=CN
        │   │   └── data.parquet
        │   └── ...
        └── gender=female
            ├── ...
            │
            ├── country=US
            │   └── data.parquet
            ├── country=CN
            │   └── data.parquet
            └── ...

通过将 path/to/table 传递给 SparkSession.read.parquet 或 SparkSession.read.load，Spark SQL 将自动从路径中提取分区信息。现在返回的 DataFrame 模式变为：

root
|-- name: string (nullable = true)
|-- age: long (nullable = true)
|-- gender: string (nullable = true)
|-- country: string (nullable = true)

请注意，分区列的数据类型是自动推断的。目前支持数字数据类型、日期、时间戳和字符串类型。有时用户可能不希望自动推断分区列的数据类型。对于这些用例，可以通过 spark.sql.sources.partitionColumnTypeInference.enabled 配置自动类型推断，该参数默认为 true。当类型推断被禁用时，分区列将使用字符串类型。

从 Spark 1.6.0 开始，分区发现默认只查找给定路径下的分区。对于上述示例，如果用户将 path/to/table/gender=male 传递给 SparkSession.read.parquet 或 SparkSession.read.load，gender 将不会被视为分区列。如果用户需要指定分区发现的起始基础路径，他们可以在数据源选项中设置 basePath。例如，当 path/to/table/gender=male 是数据路径且用户将 basePath 设置为 path/to/table/ 时，gender 将成为一个分区列。

模式合并

类似于 Protocol Buffer、Avro 和 Thrift，Parquet 也支持模式演变。用户可以从一个简单的模式开始，然后根据需要逐步向模式中添加更多列。这样，用户最终可能会得到多个 Parquet 文件，它们具有不同但相互兼容的模式。Parquet 数据源现在能够自动检测这种情况并合并所有这些文件的模式。

由于模式合并是一个相对昂贵的操作，并且在大多数情况下并非必需，因此我们从 1.5.0 版本开始默认将其关闭。您可以通过以下方式启用它：

在读取 Parquet 文件时将数据源选项 mergeSchema 设置为 true（如下例所示），或者
将全局 SQL 选项 spark.sql.parquet.mergeSchema 设置为 true。

from pyspark.sql import Row

# spark is from the previous example.
# Create a simple DataFrame, stored into a partition directory
sc = spark.sparkContext

squaresDF = spark.createDataFrame(sc.parallelize(range(1, 6))
                                  .map(lambda i: Row(single=i, double=i ** 2)))
squaresDF.write.parquet("data/test_table/key=1")

# Create another DataFrame in a new partition directory,
# adding a new column and dropping an existing column
cubesDF = spark.createDataFrame(sc.parallelize(range(6, 11))
                                .map(lambda i: Row(single=i, triple=i ** 3)))
cubesDF.write.parquet("data/test_table/key=2")

# Read the partitioned table
mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table")
mergedDF.printSchema()

# The final schema consists of all 3 columns in the Parquet files together
# with the partitioning column appeared in the partition directory paths.
# root
#  |-- double: long (nullable = true)
#  |-- single: long (nullable = true)
#  |-- triple: long (nullable = true)
#  |-- key: integer (nullable = true)

完整的示例代码可在 Spark 仓库中的 "examples/src/main/python/sql/datasource.py" 找到。

// This is used to implicitly convert an RDD to a DataFrame.
import spark.implicits._

// Create a simple DataFrame, store into a partition directory
val squaresDF = spark.sparkContext.makeRDD(1 to 5).map(i => (i, i * i)).toDF("value", "square")
squaresDF.write.parquet("data/test_table/key=1")

// Create another DataFrame in a new partition directory,
// adding a new column and dropping an existing column
val cubesDF = spark.sparkContext.makeRDD(6 to 10).map(i => (i, i * i * i)).toDF("value", "cube")
cubesDF.write.parquet("data/test_table/key=2")

// Read the partitioned table
val mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table")
mergedDF.printSchema()

// The final schema consists of all 3 columns in the Parquet files together
// with the partitioning column appeared in the partition directory paths
// root
//  |-- value: int (nullable = true)
//  |-- square: int (nullable = true)
//  |-- cube: int (nullable = true)
//  |-- key: int (nullable = true)

完整的示例代码可在 Spark 仓库中的 "examples/src/main/scala/org/apache/spark/examples/sql/SQLDataSourceExample.scala" 找到。

import com.google.common.collect.Lists;
import java.io.Serializable;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.List;

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public static class Square implements Serializable {
  private int value;
  private int square;

  // Getters and setters...

}

public static class Cube implements Serializable {
  private int value;
  private int cube;

  // Getters and setters...

}

List<Square> squares = new ArrayList<>();
for (int value = 1; value <= 5; value++) {
  Square square = new Square();
  square.setValue(value);
  square.setSquare(value * value);
  squares.add(square);
}

// Create a simple DataFrame, store into a partition directory
Dataset<Row> squaresDF = spark.createDataFrame(squares, Square.class);
squaresDF.write().parquet("data/test_table/key=1");

List<Cube> cubes = new ArrayList<>();
for (int value = 6; value <= 10; value++) {
  Cube cube = new Cube();
  cube.setValue(value);
  cube.setCube(value * value * value);
  cubes.add(cube);
}

// Create another DataFrame in a new partition directory,
// adding a new column and dropping an existing column
Dataset<Row> cubesDF = spark.createDataFrame(cubes, Cube.class);
cubesDF.write().parquet("data/test_table/key=2");

// Read the partitioned table
Dataset<Row> mergedDF = spark.read().option("mergeSchema", true).parquet("data/test_table");
mergedDF.printSchema();

// The final schema consists of all 3 columns in the Parquet files together
// with the partitioning column appeared in the partition directory paths
// root
//  |-- value: int (nullable = true)
//  |-- square: int (nullable = true)
//  |-- cube: int (nullable = true)
//  |-- key: int (nullable = true)

完整的示例代码可在 Spark 仓库中的 "examples/src/main/java/org/apache/spark/examples/sql/JavaSQLDataSourceExample.java" 找到。

df1 <- createDataFrame(data.frame(single=c(12, 29), double=c(19, 23)))
df2 <- createDataFrame(data.frame(double=c(19, 23), triple=c(23, 18)))

# Create a simple DataFrame, stored into a partition directory
write.df(df1, "data/test_table/key=1", "parquet", "overwrite")

# Create another DataFrame in a new partition directory,
# adding a new column and dropping an existing column
write.df(df2, "data/test_table/key=2", "parquet", "overwrite")

# Read the partitioned table
df3 <- read.df("data/test_table", "parquet", mergeSchema = "true")
printSchema(df3)
# The final schema consists of all 3 columns in the Parquet files together
# with the partitioning column appeared in the partition directory paths
## root
##  |-- single: double (nullable = true)
##  |-- double: double (nullable = true)
##  |-- triple: double (nullable = true)
##  |-- key: integer (nullable = true)

完整的示例代码可在 Spark 仓库中的 "examples/src/main/r/RSparkSQLExample.R" 找到。

Hive metastore Parquet 表转换

当从 Hive metastore Parquet 表读取数据并写入非分区 Hive metastore Parquet 表时，Spark SQL 将尝试使用其自己的 Parquet 支持而不是 Hive SerDe，以获得更好的性能。此行为由 spark.sql.hive.convertMetastoreParquet 配置控制，并默认开启。

Hive/Parquet 模式协调

从表模式处理的角度来看，Hive 和 Parquet 之间有两个主要区别：

Hive 不区分大小写，而 Parquet 区分大小写
Hive 认为所有列都可为空，而 Parquet 中的可空性是重要的

因此，在将 Hive metastore Parquet 表转换为 Spark SQL Parquet 表时，我们必须协调 Hive metastore 模式与 Parquet 模式。协调规则如下：

在两个模式中名称相同的字段必须具有相同的数据类型，无论可空性如何。协调后的字段应采用 Parquet 端的数据类型，以便尊重可空性。
协调后的模式只包含 Hive metastore 模式中定义的字段。
- 任何只出现在 Parquet 模式中的字段在协调后的模式中都会被丢弃。
- 任何只出现在 Hive metastore 模式中的字段都会作为可空字段添加到协调后的模式中。

元数据刷新

Spark SQL 缓存 Parquet 元数据以获得更好的性能。当 Hive metastore Parquet 表转换启用时，这些转换后的表的元数据也会被缓存。如果这些表由 Hive 或其他外部工具更新，您需要手动刷新它们以确保元数据的一致性。

# spark is an existing SparkSession
spark.catalog.refreshTable("my_table")

// spark is an existing SparkSession
spark.catalog.refreshTable("my_table")

// spark is an existing SparkSession
spark.catalog().refreshTable("my_table");

refreshTable("my_table")

REFRESH TABLE my_table;

列式加密

从 Spark 3.2 开始，Apache Parquet 1.12+ 的 Parquet 表支持列式加密。

Parquet 使用信封加密实践，其中文件部分使用“数据加密密钥”（DEK）加密，DEK 再使用“主加密密钥”（MEK）加密。DEK 由 Parquet 为每个加密文件/列随机生成。MEK 由用户选择的密钥管理服务（KMS）生成、存储和管理。Parquet Maven 仓库中有一个带有模拟 KMS 实现的 jar 包，允许仅使用 spark-shell 运行列加密和解密，而无需部署 KMS 服务器（下载 parquet-hadoop-tests.jar 文件并将其放置在 Spark 的 jars 文件夹中）

# Set hadoop configuration properties, e.g. using configuration properties of
# the Spark job:
# --conf spark.hadoop.parquet.encryption.kms.client.class=\
#           "org.apache.parquet.crypto.keytools.mocks.InMemoryKMS"\
# --conf spark.hadoop.parquet.encryption.key.list=\
#           "keyA:AAECAwQFBgcICQoLDA0ODw== ,  keyB:AAECAAECAAECAAECAAECAA=="\
# --conf spark.hadoop.parquet.crypto.factory.class=\
#           "org.apache.parquet.crypto.keytools.PropertiesDrivenCryptoFactory"

# Write encrypted dataframe files.
# Column "square" will be protected with master key "keyA".
# Parquet file footers will be protected with master key "keyB"
squaresDF.write\
   .option("parquet.encryption.column.keys" , "keyA:square")\
   .option("parquet.encryption.footer.key" , "keyB")\
   .parquet("/path/to/table.parquet.encrypted")

# Read encrypted dataframe files
df2 = spark.read.parquet("/path/to/table.parquet.encrypted")

sc.hadoopConfiguration.set("parquet.encryption.kms.client.class" ,
                           "org.apache.parquet.crypto.keytools.mocks.InMemoryKMS")

// Explicit master keys (base64 encoded) - required only for mock InMemoryKMS
sc.hadoopConfiguration.set("parquet.encryption.key.list" ,
                   "keyA:AAECAwQFBgcICQoLDA0ODw== ,  keyB:AAECAAECAAECAAECAAECAA==")

// Activate Parquet encryption, driven by Hadoop properties
sc.hadoopConfiguration.set("parquet.crypto.factory.class" ,
                   "org.apache.parquet.crypto.keytools.PropertiesDrivenCryptoFactory")

// Write encrypted dataframe files.
// Column "square" will be protected with master key "keyA".
// Parquet file footers will be protected with master key "keyB"
squaresDF.write.
   option("parquet.encryption.column.keys" , "keyA:square").
   option("parquet.encryption.footer.key" , "keyB").
parquet("/path/to/table.parquet.encrypted")

// Read encrypted dataframe files
val df2 = spark.read.parquet("/path/to/table.parquet.encrypted")

sc.hadoopConfiguration().set("parquet.encryption.kms.client.class" ,
   "org.apache.parquet.crypto.keytools.mocks.InMemoryKMS");

// Explicit master keys (base64 encoded) - required only for mock InMemoryKMS
sc.hadoopConfiguration().set("parquet.encryption.key.list" ,
   "keyA:AAECAwQFBgcICQoLDA0ODw== ,  keyB:AAECAAECAAECAAECAAECAA==");

// Activate Parquet encryption, driven by Hadoop properties
sc.hadoopConfiguration().set("parquet.crypto.factory.class" ,
   "org.apache.parquet.crypto.keytools.PropertiesDrivenCryptoFactory");

// Write encrypted dataframe files.
// Column "square" will be protected with master key "keyA".
// Parquet file footers will be protected with master key "keyB"
squaresDF.write().
   option("parquet.encryption.column.keys" , "keyA:square").
   option("parquet.encryption.footer.key" , "keyB").
   parquet("/path/to/table.parquet.encrypted");

// Read encrypted dataframe files
Dataset<Row> df2 = spark.read().parquet("/path/to/table.parquet.encrypted");

KMS 客户端

InMemoryKMS 类仅用于说明和简单演示 Parquet 加密功能。它不应在实际部署中使用。主加密密钥必须在用户组织中部署的生产级 KMS 系统中保存和管理。推出支持 Parquet 加密的 Spark 需要实现一个用于 KMS 服务器的客户端类。Parquet 提供了一个插件接口用于开发此类，

public interface KmsClient {
  // Wraps a key - encrypts it with the master key.
  public String wrapKey(byte[] keyBytes, String masterKeyIdentifier);

  // Decrypts (unwraps) a key with the master key.
  public byte[] unwrapKey(String wrappedKey, String masterKeyIdentifier);

  // Use of initialization parameters is optional.
  public void initialize(Configuration configuration, String kmsInstanceID,
                         String kmsInstanceURL, String accessToken);
}

在 parquet-java 仓库中可以找到一个针对开源 KMS 的此类示例。生产环境的 KMS 客户端应与组织的安全管理员合作设计，并由具有访问控制管理经验的开发人员构建。一旦创建了此类，就可以通过 parquet.encryption.kms.client.class 参数将其传递给应用程序，并由普通的 Spark 用户使用，如上文加密 DataFrame 写入/读取示例所示。

注意：默认情况下，Parquet 实现了一种“双重信封加密”模式，最大限度地减少了 Spark 执行器与 KMS 服务器的交互。在此模式下，DEK 使用“密钥加密密钥”（KEK，由 Parquet 随机生成）加密。KEK 在 KMS 中使用 MEK 加密；结果和 KEK 本身都缓存在 Spark 执行器内存中。对常规信封加密感兴趣的用户可以通过将 parquet.encryption.double.wrapping 参数设置为 false 来切换到该模式。有关 Parquet 加密参数的更多详细信息，请访问 parquet-hadoop 配置页面。

数据源选项

Parquet 的数据源选项可以通过以下方式设置：

.option/.options 方法，包括：
- DataFrameReader
- DataFrameWriter
- DataStreamReader
- DataStreamWriter
CREATE TABLE USING DATA_SOURCE 中的 OPTIONS 子句

属性名称	默认值	含义	范围
`datetimeRebaseMode`	（`spark.sql.parquet.datetimeRebaseModeInRead` 配置的值）	`datetimeRebaseMode` 选项允许指定 `DATE`、`TIMESTAMP_MILLIS`、`TIMESTAMP_MICROS` 逻辑类型从儒略历到修正格里高利历的重基模式。目前支持的模式有： `EXCEPTION`：读取两个日历之间模糊的旧日期/时间戳时失败。 `CORRECTED`：加载日期/时间戳时不做重基。 `LEGACY`：对旧日期/时间戳从儒略历重基到修正格里高利历。	读取
`int96RebaseMode`	（`spark.sql.parquet.int96RebaseModeInRead` 配置的值）	`int96RebaseMode` 选项允许指定 INT96 时间戳从儒略历到修正格里高利历的重基模式。目前支持的模式有： `EXCEPTION`：读取两个日历之间模糊的旧 INT96 时间戳时失败。 `CORRECTED`：加载 INT96 时间戳时不做重基。 `LEGACY`：对旧时间戳从儒略历重基到修正格里高利历。	读取
`mergeSchema`	（`spark.sql.parquet.mergeSchema` 配置的值）	设置是否合并从所有 Parquet 分区文件收集的模式。这将覆盖 `spark.sql.parquet.mergeSchema`。	读取
`compression`	`snappy`	保存到文件时使用的压缩编解码器。这可以是已知的、不区分大小写的缩写名称之一（none、uncompressed、snappy、gzip、lzo、brotli、lz4、lz4_raw 和 zstd）。这将覆盖 `spark.sql.parquet.compression.codec`。	写入

其他通用选项可在通用文件源选项中找到。

配置

Parquet 的配置可以通过 spark.conf.set 或使用 SQL 运行 SET key=value 命令来完成。

属性名称	默认值	含义	自版本
`spark.sql.parquet.binaryAsString`	false	某些生成 Parquet 的其他系统，特别是 Impala、Hive 和早期版本的 Spark SQL，在写入 Parquet 模式时不会区分二进制数据和字符串。此标志告诉 Spark SQL 将二进制数据解释为字符串，以提供与这些系统的兼容性。	1.1.1
`spark.sql.parquet.int96AsTimestamp`	true	某些生成 Parquet 的系统，特别是 Impala 和 Hive，将时间戳存储为 INT96 类型。此标志告诉 Spark SQL 将 INT96 数据解释为时间戳，以提供与这些系统的兼容性。	1.3.0
`spark.sql.parquet.int96TimestampConversion`	false	控制在将 INT96 数据转换为时间戳时（对于 Impala 写入的数据），是否应应用时间戳调整。这是必要的，因为 Impala 存储 INT96 数据时使用的时区偏移与 Hive 和 Spark 不同。	2.3.0
`spark.sql.parquet.outputTimestampType`	INT96	设置 Spark 在将数据写入 Parquet 文件时要使用的 Parquet 时间戳类型。INT96 是一种非标准但在 Parquet 中常用的时间戳类型。TIMESTAMP_MICROS 是 Parquet 中的标准时间戳类型，它存储自 Unix 纪元以来的微秒数。TIMESTAMP_MILLIS 也是标准类型，但精度为毫秒，这意味着 Spark 必须截断其时间戳值的微秒部分。	2.3.0
`spark.sql.parquet.compression.codec`	snappy	设置写入 Parquet 文件时使用的压缩编解码器。如果表特定的选项/属性中指定了 `compression` 或 `parquet.compression`，则优先级顺序为 `compression`、`parquet.compression`、`spark.sql.parquet.compression.codec`。可接受的值包括：none、uncompressed、snappy、gzip、lzo、brotli、lz4、lz4_raw、zstd。请注意，`brotli` 需要安装 `BrotliCodec`。	1.1.1
`spark.sql.parquet.filterPushdown`	true	当设置为 true 时，启用 Parquet 过滤器下推优化。	1.2.0
`spark.sql.parquet.aggregatePushdown`	false	如果为 true，聚合操作将被下推到 Parquet 以进行优化。支持将 MIN、MAX 和 COUNT 作为聚合表达式。对于 MIN/MAX，支持布尔、整数、浮点和日期类型。对于 COUNT，支持所有数据类型。如果任何 Parquet 文件页脚中缺少统计信息，则会抛出异常。	3.3.0
`spark.sql.hive.convertMetastoreParquet`	true	当设置为 false 时，Spark SQL 将对 Parquet 表使用 Hive SerDe 而不是内置支持。	1.1.1
`spark.sql.parquet.mergeSchema`	false	当为 true 时，Parquet 数据源会合并从所有数据文件收集到的模式，否则，如果摘要文件不可用，则从摘要文件或随机数据文件中选择模式。	1.5.0
`spark.sql.parquet.respectSummaryFiles`	false	当为 true 时，我们假设所有 Parquet 分区文件与摘要文件一致，并在合并模式时忽略它们。否则，如果此项为 false（默认值），我们将合并所有分区文件。这应被视为仅限专家使用的选项，在完全了解其含义之前不应启用。	1.5.0
`spark.sql.parquet.writeLegacyFormat`	false	如果为 true，数据将以 Spark 1.4 及更早版本的方式写入。例如，十进制值将以 Apache Parquet 的固定长度字节数组格式写入，Apache Hive 和 Apache Impala 等其他系统也使用该格式。如果为 false，则将使用 Parquet 中的较新格式。例如，十进制将以基于整数的格式写入。如果 Parquet 输出旨在与不支持此较新格式的系统一起使用，请设置为 true。	1.6.0
`spark.sql.parquet.enableVectorizedReader`	true	启用 Parquet 向量化解码。	2.0.0
`spark.sql.parquet.enableNestedColumnVectorizedReader`	true	启用嵌套列（例如：结构体、列表、映射）的 Parquet 向量化解码。需要启用 `spark.sql.parquet.enableVectorizedReader`。	3.3.0
`spark.sql.parquet.recordLevelFilter.enabled`	false	如果为 true，则启用 Parquet 使用下推过滤器进行的原生记录级过滤。此配置仅在 `spark.sql.parquet.filterPushdown` 启用且未向量化读取器时生效。您可以通过将 `spark.sql.parquet.enableVectorizedReader` 设置为 false 来确保不使用向量化读取器。	2.3.0
`spark.sql.parquet.columnarReaderBatchSize`	4096	Parquet 向量化读取器批处理中包含的行数。应仔细选择该数字，以最大限度地减少开销并避免读取数据时出现 OOM（内存溢出）错误。	2.4.0
`spark.sql.parquet.fieldId.write.enabled`	true	字段 ID 是 Parquet 模式规范的原生字段。启用后，Parquet 写入器将把 Spark 模式中的字段 ID 元数据（如果存在）填充到 Parquet 模式中。	3.3.0
`spark.sql.parquet.fieldId.read.enabled`	false	字段 ID 是 Parquet 模式规范的原生字段。启用后，Parquet 读取器将使用请求的 Spark 模式中的字段 ID（如果存在）来查找 Parquet 字段，而不是使用列名。	3.3.0
`spark.sql.parquet.fieldId.read.ignoreMissing`	false	当 Parquet 文件没有任何字段 ID，但 Spark 读取模式正在使用字段 ID 进行读取时，如果此标志启用，我们将静默返回空值，否则报错。	3.3.0
`spark.sql.parquet.inferTimestampNTZ.enabled`	true	启用后，带有 `isAdjustedToUTC = false` 注解的 Parquet 时间戳列在模式推断期间会被推断为 TIMESTAMP_NTZ 类型。否则，所有 Parquet 时间戳列都被推断为 TIMESTAMP_LTZ 类型。请注意，Spark 在文件写入时将输出模式写入 Parquet 的页脚元数据，并在文件读取时利用它。因此，此配置仅影响非 Spark 写入的 Parquet 文件的模式推断。	3.4.0
spark.sql.parquet.datetimeRebaseModeInRead	`EXCEPTION`	`DATE`、`TIMESTAMP_MILLIS`、`TIMESTAMP_MICROS` 逻辑类型从儒略历到修正格里高利历的重基模式。 `EXCEPTION`：如果 Spark 遇到在两个日历之间模糊的旧日期/时间戳，则读取将失败。 `CORRECTED`：Spark 不会进行重基，并按原样读取日期/时间戳。 `LEGACY`：Spark 在读取 Parquet 文件时，将日期/时间戳从传统的混合（儒略历 + 格里高利历）日历重基到修正格里高利历。此配置仅在 Parquet 文件的写入器信息（如 Spark、Hive）未知时生效。	3.0.0
spark.sql.parquet.datetimeRebaseModeInWrite	`EXCEPTION`	`DATE`、`TIMESTAMP_MILLIS`、`TIMESTAMP_MICROS` 逻辑类型从修正格里高利历到儒略历的重基模式。 `EXCEPTION`：如果 Spark 遇到在两个日历之间模糊的旧日期/时间戳，则写入将失败。 `CORRECTED`：Spark 不会进行重基，并按原样写入日期/时间戳。 `LEGACY`：Spark 在写入 Parquet 文件时，将日期/时间戳从修正格里高利历重基到传统的混合（儒略历 + 格里高利历）日历。	3.0.0
spark.sql.parquet.int96RebaseModeInRead	`EXCEPTION`	INT96 时间戳类型从儒略历到修正格里高利历的重基模式。 `EXCEPTION`：如果 Spark 遇到在两个日历之间模糊的旧 INT96 时间戳，则读取将失败。 `CORRECTED`：Spark 不会进行重基，并按原样读取日期/时间戳。 `LEGACY`：Spark 在读取 Parquet 文件时，将 INT96 时间戳从传统的混合（儒略历 + 格里高利历）日历重基到修正格里高利历。此配置仅在 Parquet 文件的写入器信息（如 Spark、Hive）未知时生效。	3.1.0
spark.sql.parquet.int96RebaseModeInWrite	`EXCEPTION`	INT96 时间戳类型从修正格里高利历到儒略历的重基模式。 `EXCEPTION`：如果 Spark 遇到在两个日历之间模糊的旧时间戳，则写入将失败。 `CORRECTED`：Spark 不会进行重基，并按原样写入日期/时间戳。 `LEGACY`：Spark 在写入 Parquet 文件时，将 INT96 时间戳从修正格里高利历重基到传统的混合（儒略历 + 格里高利历）日历。	3.1.0

Spark SQL 指南