はじめに
Apache Hive は、ユーザ定義関数 (UDF) を提供します。UDF を定義して、必要なアクションを実行し、所望の目的を達成することができます。
Big Data Quality SDKでは、以下のデータ品質ジョブを実行するための一連の Hive ユーザ定義関数とユーザ定義集約関数が提供されています。
ユーザ定義関数 (UDF)
ユーザ定義関数は、一度に 1 つのレコードを処理します。UDF に基づくジョブには以下のものがあります。
- Match Key Generator
- Table Lookup
- Advanced Transformer
- Open Name Parser
ユーザ定義集約関数 (UDAF)
ユーザ定義集約関数は、結合フィールドに基づいてレコードをコレクションに集約してから、一度に 1 つのレコード コレクションを処理します。UDAF に基づくジョブには以下のものがあります。
- Interflow Match
- Intraflow Match
- Transactional Match
- Best of Breed
- Duplicate Synchronization
- Filter
- Validate Address
- Validate Address Global
- Validate Address Loqate