Composants d'une fonction Hive SDK Qualité des Big Data

Les composants clés nécessaires pour exécuter un UDF Hive SDK qualité des Big Data sont :
Fichier JAR
Le fichier JAR Hive SDK qualité des Big Data du module auquel appartient l'UDF Hive Data Quality souhaité. Il doit être enregistré avant de pouvoir utiliser toute UDF.
UDF/UDAF de job
Chaque job Data Quality est fourni sous forme de fonction définie par l'utilisateur (UDF) ou de fonction d'agrégation définie par l'utilisateur (UDAF).
Alias
Alias affecté à une UDF Hive. Ceci est facultatif.
Configurations
Règles spécifiées au format JSON et autres détails de configuration, suivant le job à exécuter.
En-tête
Champs d'en-tête de la table d'entrée au format séparé par des virgules.
Table d'entrée
Table qui fournit les enregistrements d'entrée respectifs pour l'UDF Hive à exécuter.
Table de candidats
Table qui fournit les enregistrements candidats pour l'UDF Hive à exécuter, en cas d'UDAF Interflow Match.
Table de suspects
Table qui fournit les enregistrements suspects pour l'UDF Hive à exécuter, en cas d'UDAF Interflow Match.
Hive.Map.Aggr
Pour activer ou désactiver l’agrégation de données entre Mapper et Reducer, définissez cette variable d’environnement Hive sur false. Par défaut, Hive.Map.Aggr = true et les données sont regroupés.

Définissez cette valeur sur false pour tous les jobs Hive du SDK.

Remarque : Cette configuration est obligatoire pour tous les UDAF.
Configurations générales
Configurations de mémoire requises pour exécuter le job.
Remarque : Cette configuration est requise uniquement pour les UDAF Hive du module Universal Addressing.
Configurations d’entrée
Paramètres des données d’entrée.
Remarque : Cette configuration est requise uniquement pour les UDAF Hive du module Universal Addressing.
Configurations de moteur
Définition des différentes configurations telles que les paramètres de base de données, le chemin d'accès à l'exécution COBOL et le type préchargement.
Remarque : Cette configuration est requise uniquement pour les UDAF Hive du module Universal Addressing.
LD_LIBRARY_PATH
Définition de cette variable d’environnement sur les chemins d’accès aux différentes bibliothèques COBOL requises lors de l’exécution des jobs Hive.
Remarque : Cette configuration est requise uniquement pour les UDAF Hive Validate Address.
Type de processus
Spécification du niveau de validation souhaité à utiliser dans un job Hive donné du SDK. Actuellement, seule la validation d'adresse est prise en charge.

Définissez cette valeur sur VALIDATE.

Remarque : Cette configuration est requise uniquement pour les UDAF Hive Validate Address et Validate Address Loqate.
Sortie
Sortie de l'UDF Hive, qui peut être affichée sur la console ou exportée vers un fichier de sortie.
Requête
Requête à exécuter l'UDF Hive requise.
Pour chaque job, vous pouvez effectuer l'une des opérations suivantes à l'aide de la syntaxe de requête applicable :
  • Afficher la sortie du job sur la console.
  • Enregistrer la sortie du job dans un fichier de sortie indiqué.