Cargar a Hive

Apache Hive es una infraestructura de almacén de datos construida sobre Hadoop para proporcionar resumen, consultas y análisis de datos. Si desea consultar la fuente de datos subyacente a través de Hive, utilice su propio lenguaje de consulta, HiveQL.

Hive admite los siguientes formatos de archivo Hadoop:

TEXTFILE
SEQUENCE FILE
ORC
RCFILE
PARQUET
AVRO
Nota: El formato de archivo AVRO se admite en la versión 0.14 y superiores de Hive.

La actividad Cargar a Hive le permite cargar datos a una tabla de Hive por medio de una conexión JDBC. Mediante esta conexión, los datos se leen desde un archivo Hadoop específico y se cargan a una tabla existente o a una tabla nueva en una conexión seleccionada.

Para cargar los datos a una tabla nueva, se debe definir el esquema de la tabla.

Nota: Spectrum no admite datos jerárquicos, aunque Hive sí lo haga.