
Spark SQL
与
DataFrame
:
读写外部数据源
|
121
.read
.format("jdbc")
.option("url", jdbcUrl)
.option("dbtable", "[TABLENAME]")
.option("user", "[USERNAME]")
.option("password", "[PASSWORD]")
.load())
# 将数据写入JDBC源
(jdbcDF
.write
.format("jdbc")
.option("url", jdbcUrl)
.option("dbtable", "[TABLENAME]")
.option("user", "[USERNAME]")
.option("password", "[PASSWORD]")
.save())
5.3.6
其他外部数据源
前面介绍的只是
Spark
可以连接的许许多多外部数据源中的几个而已,其他的常用数据源
还包括以下这些。
• Apache Cassandra
• Snowflake
• MongoDB
5.4
DataFrame
和
Spark SQL
的高阶函数
复杂数据类型由简单数据类型组合而成,不过用户经常希望能直接操作复杂数据类型。操
作复杂数据类型的典型方案有两种。
•
将嵌套的结构打散到多行,调用某个函数,然后重建嵌套结构。
•
构建用户自定义函数。
这两种方式都有助于让用户以表格格式处理问题。一般会涉及(且不限于)使用
get_json_
object() ...