Componentes de una UDF de Hive de Big Data Quality SDK
Los componentes clave necesarios para ejecutar una UDF de Hive en Big Data Quality SDK son:
- Archivo JAR
- El archivo JAR de Hive de Big Data Quality SDK del módulo al que pertenece la UDF de Hive de la calidad de los datos. Se debe registrar antes de usar cualquier UDF.
- UDF/UDAF de trabajo
- Cada trabajo de calidad de datos se brinda mediante una Función definida por el usuario (UDF) o una Función de agregación definida por el usuario (UDAF).
- Alias
- El alias asignado a una UDF de Hive. Esto es opcional.
- Configuraciones
- Las reglas especificadas en formato JSON, y otros detalles de configuración, según las cuales el trabajo se debe ejecutar.
- Encabezado
- Los campos de encabezado de los datos de entrada, en formato separado por comas.
- Tabla de entrada
- La tabla en la que se muestran los registros de entrada respectivamente para que se ejecute la UDF de Hive.
- Tabla de candidato
- La tabla en la que se muestran los registros del candidato para que se ejecute la UDAF de Hive en el caso de la UDF de Interflow Match.
- Tabla de sospechoso
- La tabla en la que se muestran los registros del sospechoso para que se ejecute la UDAF de Hive en el caso de la UDF de Interflow Match.
- Hive.Map.Aggr
- To turn the aggregation of data between Mapper and Reducer on or off, set this Hive environment variable to
false
. By default,Hive.Map.Aggr = true
and the data is aggregated.Set this value to false for all Hive jobs in the SDK.
Nota: This configuration is required for all UDAFs. - General Configurations
- The memory configurations required to run the job.Nota: This configuration is required only for Universal Addressing Module Hive UDAFs.
- Input Configurations
- The settings for the input data.Nota: This configuration is required only for Universal Addressing Module Hive UDAFs.
- Engine Configurations
- Para definir varias configuraciones, como ajustes de bases de datos, ruta de tiempo de ejecución COBOL, tipo de carga previa, etc.Nota: This configuration is required only for Universal Addressing Module Hive UDAFs.
- LD_LIBRARY_PATH
- To set this environment variable to the paths of the various COBOL libraries required while running the Hive jobs.Nota: This configuration is required only for the Validate Address Hive UDAF.
- Process Type
- To specify the desired validation level to be used in a particular Hive job of the SDK. Currently, only address validation is supported.
Set this value to VALIDATE.
Nota: This configuration is required only for the Validate Address and Validate Address Loqate Hive UDAFs. - Salida
- La salida de la UDF de Hive, que se puede mostrar en la consola o volcar en un archivo de salida.
- Consulta
- La consulta para ejecutar la UDF de Hive requerida. Para cada trabajo, puede hacer cada una de las siguientes acciones con la sintaxis de consulta correspondiente:
- Mostrar la salida del trabajo en la consola
- Volcar la salida del trabajo en un archivo de salida designado