从/到其他 DBMS#

Spark 上的 Pandas API 中与其它 DBMS 交互的 API 与 pandas 中的略有不同,因为 Spark 上的 Pandas API 利用 PySpark 中的 JDBC API 来从/向其它 DBMS 读取和写入数据。

从/向外部 DBMS 读取/写入数据的 API 如下

read_sql_table(table_name, con[, schema, ...])

将 SQL 数据库表读入 DataFrame。

read_sql_query(sql, con[, index_col])

将 SQL 查询读入 DataFrame。

read_sql(sql, con[, index_col, columns])

将 SQL 查询或数据库表读入 DataFrame。

Spark 上的 pandas 需要一个规范的 JDBC URL 作为 con 参数,并且能够接受 PySpark JDBC API 中的选项的额外关键字参数

ps.read_sql(..., dbtable="...", driver="", keytab="", ...)

读取和写入 DataFrame#

在下面的示例中,您将读取和写入 SQLite 中的表。

首先,使用 Python 的 SQLite 库创建如下所示的 example 数据库。稍后将由 Spark 上的 pandas 读取此数据库。

import sqlite3

con = sqlite3.connect('example.db')
cur = con.cursor()
# Create table
cur.execute(
    '''CREATE TABLE stocks
       (date text, trans text, symbol text, qty real, price real)''')
# Insert a row of data
cur.execute("INSERT INTO stocks VALUES ('2006-01-05','BUY','RHAT',100,35.14)")
# Save (commit) the changes
con.commit()
con.close()

Spark 上的 Pandas API 需要 JDBC 驱动程序才能读取数据,因此它要求您的特定数据库的驱动程序位于 Spark 的类路径中。例如,您可以如下下载 SQLite JDBC 驱动程序。

curl -O https://repo1.maven.org/maven2/org/xerial/sqlite-jdbc/3.34.0/sqlite-jdbc-3.34.0.jar

之后,您应该首先将其添加到 Spark 会话中。添加后,Spark 上的 Pandas API 将自动检测 Spark 会话并加以利用。

import os

from pyspark.sql import SparkSession

(SparkSession.builder
    .master("local")
    .appName("SQLite JDBC")
    .config(
        "spark.jars",
        "{}/sqlite-jdbc-3.34.0.jar".format(os.getcwd()))
    .config(
        "spark.driver.extraClassPath",
        "{}/sqlite-jdbc-3.34.0.jar".format(os.getcwd()))
    .getOrCreate())

现在,您可以读取该表了

import pyspark.pandas as ps

df = ps.read_sql("stocks", con="jdbc:sqlite:{}/example.db".format(os.getcwd()))
df
         date trans symbol    qty  price
0  2006-01-05   BUY   RHAT  100.0  35.14

您也可以将其写回到 stocks 表中,如下所示

df.price += 1
df.spark.to_spark_io(
    format="jdbc", mode="append",
    dbtable="stocks", url="jdbc:sqlite:{}/example.db".format(os.getcwd()))
ps.read_sql("stocks", con="jdbc:sqlite:{}/example.db".format(os.getcwd()))
         date trans symbol    qty  price
0  2006-01-05   BUY   RHAT  100.0  35.14
1  2006-01-05   BUY   RHAT  100.0  36.14