Hive に読み込み

Apache Hive は、データの要約、クエリ、分析用に Hadoop 上に構築されたデータウェアハウスインフラストラクチャです。Hive を使用して基盤のデータソースをクエリするには、それ独自のクエリ言語である HiveQL を使用します。

Hive は、以下の Hadoop ファイル形式をサポートします。

TEXTFILE
SEQUENCE FILE
ORC
RCFILE
PARQUET
AVRO
注: AVRO ファイル形式は、Hive バージョン 0.14 以降でサポートされています。

[Hive に読み込み] アクティビティでは、JDBC 接続を使用してデータを Hive テーブルに読み込むことができます。この接続を使用して、指定された Hadoop ファイルからデータが読み取られ、選択された接続の既存のテーブルか、または選択された接続の新しく作成されたテーブルに読み込まれます。

データを新しいテーブルに読み込むには、テーブルのスキーマを定義する必要があります。

注: Hive は階層データをサポートしますが、Spectrum はサポートしません。