Composants d'une fonction Hive SDK Qualité des Big Data
Les composants clés nécessaires pour exécuter un UDF Hive SDK qualité des Big Data sont :
- Fichier JAR
- Le fichier JAR Hive SDK qualité des Big Data du module auquel appartient l'UDF Hive Data Quality souhaité. Il doit être enregistré avant de pouvoir utiliser toute UDF.
- UDF/UDAF de job
- Chaque job Data Quality est fourni sous forme de fonction définie par l'utilisateur (UDF) ou de fonction d'agrégation définie par l'utilisateur (UDAF).
- Alias
- Alias affecté à une UDF Hive. Ceci est facultatif.
- Configurations
- Règles spécifiées au format JSON et autres détails de configuration, suivant le job à exécuter.
- En-tête
- Champs d'en-tête de la table d'entrée au format séparé par des virgules.
- Table d'entrée
- Table qui fournit les enregistrements d'entrée respectifs pour l'UDF Hive à exécuter.
- Table de candidats
- Table qui fournit les enregistrements candidats pour l'UDF Hive à exécuter, en cas d'UDAF Interflow Match.
- Table de suspects
- Table qui fournit les enregistrements suspects pour l'UDF Hive à exécuter, en cas d'UDAF Interflow Match.
- Hive.Map.Aggr
- Pour activer ou désactiver l’agrégation de données entre Mapper et Reducer, définissez cette variable d’environnement Hive sur
false
. Par défaut,Hive.Map.Aggr = true
et les données sont regroupés.Définissez cette valeur sur false pour tous les jobs Hive du SDK.
Remarque : Cette configuration est obligatoire pour tous les UDAF. - Configurations générales
- Configurations de mémoire requises pour exécuter le job.Remarque : Cette configuration est requise uniquement pour les UDAF Hive du module Universal Addressing.
- Configurations d’entrée
- Paramètres des données d’entrée.Remarque : Cette configuration est requise uniquement pour les UDAF Hive du module Universal Addressing.
- Configurations de moteur
- Définition des différentes configurations telles que les paramètres de base de données, le chemin d'accès à l'exécution COBOL et le type préchargement.Remarque : Cette configuration est requise uniquement pour les UDAF Hive du module Universal Addressing.
- LD_LIBRARY_PATH
- Définition de cette variable d’environnement sur les chemins d’accès aux différentes bibliothèques COBOL requises lors de l’exécution des jobs Hive.Remarque : Cette configuration est requise uniquement pour les UDAF Hive Validate Address.
- Type de processus
- Spécification du niveau de validation souhaité à utiliser dans un job Hive donné du SDK. Actuellement, seule la validation d'adresse est prise en charge.
Définissez cette valeur sur VALIDATE.
Remarque : Cette configuration est requise uniquement pour les UDAF Hive Validate Address et Validate Address Loqate. - Sortie
- Sortie de l'UDF Hive, qui peut être affichée sur la console ou exportée vers un fichier de sortie.
- Requête
- Requête à exécuter l'UDF Hive requise. Pour chaque job, vous pouvez effectuer l'une des opérations suivantes à l'aide de la syntaxe de requête applicable :
- Afficher la sortie du job sur la console.
- Enregistrer la sortie du job dans un fichier de sortie indiqué.