Introducción

Apache Hive proporciona funciones definidas por el usuario (UDF). Una UDF puede definirse para realizar las acciones requeridas y lograr los objetivos deseados.

Big Data Quality SDK proporciona un conjunto de las funciones Hive definidas por el usuario y las funciones de agregación definidas por el usuario para ejecutar los trabajos de Data Quality enumerados.

Funciones definidas por el usuario (UDF)

Una función definida por el usuario procesa un registro a la vez.
Los trabajos basados en UDF son los que se indican a continuación:
  • Match Key Generator
  • Table Lookup
  • Advanced Transformer
  • Open Name Parser

Funciones de agregación definidas por el usuario (UDAF)

Una función de agregación definida por el usuario primero agrega registros a las colecciones en función del campo de combinación y, a continuación, procesa la colección de registros a la vez.
Los trabajos basados en UDAF son los que se indican a continuación:
  • Interflow Match
  • Intraflow Match
  • Transactional Match
  • Best of Breed
  • Duplicate Synchronization
  • Filtro
  • Validate Address
  • Validate Address Global
  • Validate Address Loqate