数据源
在本节中,我们将介绍如何在 ML 中使用数据源加载数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC,我们还为 ML 提供了一些特定的数据源。
目录
图像数据源
此图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO
将压缩图像(jpeg、png 等)加载为原始图像表示形式。加载的 DataFrame 有一列 StructType
类型的列:“image”,包含存储为图像模式的图像数据。image
列的模式为
- origin:
StringType
(表示图像的文件路径) - height:
IntegerType
(图像的高度) - width:
IntegerType
(图像的宽度) - nChannels:
IntegerType
(图像通道数) - mode:
IntegerType
(与 OpenCV 兼容的类型) - data:
BinaryType
(以与 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为行优先 BGR)
在 PySpark 中,我们提供了 Spark SQL 数据源 API,用于将图像数据加载为 DataFrame。
ImageDataSource
实现了 Spark SQL 数据源 API,用于将图像数据加载为 DataFrame。
ImageDataSource
实现了 Spark SQL 数据源 API,用于将图像数据加载为 DataFrame。
在 SparkR 中,我们提供了 Spark SQL 数据源 API,用于将图像数据加载为 DataFrame。
LIBSVM 数据源
此 LIBSVM
数据源用于从目录加载“libsvm”类型的文件。加载的 DataFrame 有两列:包含存储为双精度值的标签的 label 列和包含存储为向量特征向量的 features 列。这些列的模式为
- label:
DoubleType
(表示实例标签) - features:
VectorUDT
(表示特征向量)
在 PySpark 中,我们提供了 Spark SQL 数据源 API,用于将 LIBSVM
数据加载为 DataFrame。
LibSVMDataSource
实现了 Spark SQL 数据源 API,用于将 LIBSVM
数据加载为 DataFrame。
LibSVMDataSource
实现了 Spark SQL 数据源 API,用于将 LIBSVM
数据加载为 DataFrame。
在 SparkR 中,我们提供了 Spark SQL 数据源 API,用于将 LIBSVM
数据加载为 DataFrame。