
177
9.3 データのロードとセーブ
9-17
Java
Hive
ーー
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SchemaRDD;
HiveContext hiveCtx = new HiveContext(sc);
SchemaRDD rows = hiveCtx.sql("SELECT key, value FROM mytable");
JavaRDD<Integer> keys = rdd.toJavaRDD().map(new Function<Row, Integer>() {
public Integer call(Row row) { return row.getInt(0); }
});
9.3.2
Parquet
Parquet
(
http://parquet.apache.org/
)は、広く使われている列指向のストレージフォーマッ
トであり、ネストしたフィールドを持つレコードを効率的に保存できます。
Parquet
は
Hadoop
エ
コシステムのツール群で使われることが多く、
Spark SQL
の全てのデータ型をサポートしていま
す。
Spark SQL
には、
Parquet
のファイルを直接読み書きできるメソッド群があります。
まず、データのロードは
HiveContext.parquetFile
あるいは ...