Load to Hive

Apache Hive est une infrastructure d'entrepôt de données construite par-dessus Hadoop pour fournir des fonctionnalités de synthèse, de requête et d'analyse. Pour utiliser Hive pour interroger la source de données sous-jacente, utilisez son propre langage de requête, HiveQL.

Hive prend en charge les formats de fichier Hadoop ci-dessous :

TEXTFILE
SEQUENCE FILE
ORC
RCFILE
PARQUET
AVRO
Remarque : Le format de fichier AVRO est pris en charge dans la version Hive 0.14 et les versions supérieures.

L'activité Load to Hive vous permet de charger des données dans une table Hive à l'aide d'une connexion JDBC. Grâce à cette connexion, les données sont lues depuis un fichier Hadoop spécifié et chargées soit dans une table existante de la connexion sélectionnée, soit dans une nouvelle table créée dans la connexion sélectionnée.

Pour charger les données dans une nouvelle table, il faut que le schéma de la table soit défini.

Remarque : Spectrum ne prend pas en charge les données hiérarchiques, même si Hive les prend en charge.