Introduction

Apache Hive fournit des fonctions définies par l'utilisateur (UDF). Une UDF peut être définie pour réaliser les actions requises et atteindre les objectifs souhaités.

SDK qualité des Big Data fournit un ensemble de fonctions définies par l'utilisateur et de fonctions d'agrégation définies par l'utilisateur Hive permettant d'exécuter les jobs Data Quality répertoriés.

Fonctions définies par l'utilisateur (UDF)

Une fonction définie par l'utilisateur traite un enregistrement à la fois.

Les jobs de type UDF sont les suivants :

Match Key Generator
Table Lookup
Advanced Transformer
Open Name Parser

Fonctions d'agrégation définies par l'utilisateur (UDAF)

Une fonction d'agrégation définie par l'utilisateur commence par regrouper les enregistrements dans des collections en fonction du champ de jointure, puis elle traite une collection d'enregistrements à la fois.

Les jobs de type UDAF sont les suivants :

Interflow Match
Intraflow Match
Transactional Match
Best of Breed
Duplicate Synchronization
Filtrer
Validate Address
Validate Address Global
Validate Address Loqate