はじめに

Apache Hive は、ユーザ定義関数 (UDF) を提供します。UDF を定義して、必要なアクションを実行し、所望の目的を達成することができます。

Big Data Quality SDKでは、以下のデータ品質ジョブを実行するための一連の Hive ユーザ定義関数とユーザ定義集約関数が提供されています。

ユーザ定義関数 (UDF)

ユーザ定義関数は、一度に 1 つのレコードを処理します。
UDF に基づくジョブには以下のものがあります。
  • Match Key Generator
  • Table Lookup
  • Advanced Transformer
  • Open Name Parser

ユーザ定義集約関数 (UDAF)

ユーザ定義集約関数は、結合フィールドに基づいてレコードをコレクションに集約してから、一度に 1 つのレコード コレクションを処理します。
UDAF に基づくジョブには以下のものがあります。
  • Interflow Match
  • Intraflow Match
  • Transactional Match
  • Best of Breed
  • Duplicate Synchronization
  • Filter
  • Validate Address
  • Validate Address Global
  • Validate Address Loqate