Componentes de una UDF de Hive de Big Data Quality SDK

Los componentes clave necesarios para ejecutar una UDF de Hive en Big Data Quality SDK son:
Archivo JAR
El archivo JAR de Hive de Big Data Quality SDK del módulo al que pertenece la UDF de Hive de la calidad de los datos. Se debe registrar antes de usar cualquier UDF.
UDF/UDAF de trabajo
Cada trabajo de calidad de datos se brinda mediante una Función definida por el usuario (UDF) o una Función de agregación definida por el usuario (UDAF).
Alias
El alias asignado a una UDF de Hive. Esto es opcional.
Configuraciones
Las reglas especificadas en formato JSON, y otros detalles de configuración, según las cuales el trabajo se debe ejecutar.
Encabezado
Los campos de encabezado de los datos de entrada, en formato separado por comas.
Tabla de entrada
La tabla en la que se muestran los registros de entrada respectivamente para que se ejecute la UDF de Hive.
Tabla de candidato
La tabla en la que se muestran los registros del candidato para que se ejecute la UDAF de Hive en el caso de la UDF de Interflow Match.
Tabla de sospechoso
La tabla en la que se muestran los registros del sospechoso para que se ejecute la UDAF de Hive en el caso de la UDF de Interflow Match.
Hive.Map.Aggr
To turn the aggregation of data between Mapper and Reducer on or off, set this Hive environment variable to false. By default, Hive.Map.Aggr = true and the data is aggregated.

Set this value to false for all Hive jobs in the SDK.

Nota: This configuration is required for all UDAFs.
General Configurations
The memory configurations required to run the job.
Nota: This configuration is required only for Universal Addressing Module Hive UDAFs.
Input Configurations
The settings for the input data.
Nota: This configuration is required only for Universal Addressing Module Hive UDAFs.
Engine Configurations
Para definir varias configuraciones, como ajustes de bases de datos, ruta de tiempo de ejecución COBOL, tipo de carga previa, etc.
Nota: This configuration is required only for Universal Addressing Module Hive UDAFs.
LD_LIBRARY_PATH
To set this environment variable to the paths of the various COBOL libraries required while running the Hive jobs.
Nota: This configuration is required only for the Validate Address Hive UDAF.
Process Type
To specify the desired validation level to be used in a particular Hive job of the SDK. Currently, only address validation is supported.

Set this value to VALIDATE.

Nota: This configuration is required only for the Validate Address and Validate Address Loqate Hive UDAFs.
Salida
La salida de la UDF de Hive, que se puede mostrar en la consola o volcar en un archivo de salida.
Consulta
La consulta para ejecutar la UDF de Hive requerida.
Para cada trabajo, puede hacer cada una de las siguientes acciones con la sintaxis de consulta correspondiente:
  • Mostrar la salida del trabajo en la consola
  • Volcar la salida del trabajo en un archivo de salida designado