マッチングの最適化

通常、マッチングはあらゆるデータ品質実装の中で最も時間のかかる操作の 1 つであり、できる限り効率的にマッチングを実行することが重要になります。マッチング結果とパフォーマンスは、常にバランスが保たれています。ファイル内の各レコードをそれ以外のすべてのレコードと比較する場合、すべてのマッチを確実に特定できます。しかし、データ量が増大すると、このアプローチは持続できなくなります。例えば、100 万レコードからなる入力ファイルがある場合、各レコードをそれ以外のすべてのレコードとマッチングすると、各マッチルールを評価するのにほぼ 1 兆回の比較が必要になります。

ファイル内の大部分のレコードがマッチしない場合、この問題を解決する一般的なアプローチは、マッチキーを定義して、同じマッチキーを持つレコードとのみ比較することです。適切なマッチキーを定義することが、マッチングエンジンのパフォーマンスに影響を与える最も重要な変数です。適切なマッチキーを定義するには、マッチングエンジンがレコードをどのように処理するか、および使用可能なオプションについて理解する必要があります。

デフォルトのマッチング方法では、マッチキュー内のレコードをすべて比較して、最大数のマッチを特定します。そのため、この方法はしばしば最も時間のかかるマッチング方法になります。デフォルトのマッチング方法では、マッチキュー内の先頭のレコードがサスペクトレコードになります。次のレコードが比較され、マッチした場合は重複として書き出されます。マッチしない場合はサスペクトとして追加され、次のレコードが 2 つのアクティブなサスペクトと比較されます。次のマッチキューを考えてみましょう。

ユニーク ID	マッチキー
1	123A
2	123A
3	123A
4	123A
5	123A
6	123A
7	123A
8	123A
9	123A
10	123A

まず、レコード 2 がレコード 1 と比較されます。マッチしない場合、レコード 2 はサスペクトとして追加されます。次に、レコード 3 がレコード 1 および 2 と比較されます。以降も同様です。マッチングレコードが存在しない場合、比較の総回数は 45 回になります。マッチするレコードがある場合、比較回数はそれより少なくります。サイズ N のマッチキューの場合、比較の最大回数は N×(N-1)÷2 です。キューサイズが小さい場合は目立ちませんが、キューサイズが増大すると、影響が大きくなります。例えば、キューサイズ 100 の場合の比較回数は 4,450 回で、キューサイズが 500 の場合の比較回数は 124,750 回です。

適切なマッチキーの定義

適切なマッチキーを定義するには、以下の点を考慮してください。

覚えておくべき最も重要な点は、大部分のレコードはマッチしないということです。したがって、マッチする可能性のあるレコードのみを比較したいと考えます。
同じマッチキーを持つレコードのみを比較します。
パフォーマンスは重要な検討事項です。
- マッチキーにより、マッチキューのサイズが決定されます。
- 一定のレコード数では、マッチキューサイズが倍になると、実行時間も倍になります。
- "厳格" なマッチキーによって、パフォーマンスが向上します。"厳格" なマッチキーは限定的なマッチキーで、多数のフィールドからの多数の文字で構成されます。
- "あいまい" なマッチキーによって、マッチ数が増加する場合があります。"あいまい" なマッチキーはそれほど限定的ではないマッチキーで、少数のフィールドからの少数の文字で構成されます。

パフォーマンスとマッチ結果のバランスを見出す

パフォーマンスと結果のバランスをうまく保つには、マッチルールとデータの密度について検討してください。

マッチルールに関して、以下の点を考慮してください。
- 完全一致を必要とするフィールドをマッチキーに含めることができます。
- マッチルールに適したキーを作成してください。例えば、発音表記に関するマッチルールでは、発音表記に関するマッチキーが適していると考えられます。
- 多くの場合、マッチキーはマッチングするすべてのフィールドの一部で構成されます。
- 欠落しているデータが及ぼす影響に注意してください。
データ密度に関して、以下のことを考慮してください。
- 例えば、住所マッチングにおいて、すべてのレコードがある国のデータセットではなくある 1 つの町にある場合、マッチキーはより厳格になる可能性があります。
- 平均ではなく最大のマッチキューを検討してください。Match Summary Report を精査して、最大マッチキューを判断します。
Transactional Match を使用する場合、同じ考慮事項が Candidate Finder の SELECT 文にも当てはまります。

Express マッチキー

一般的なファイルでは、大部分の重複レコードが完全に、またはほぼ完全に一致します。Express マッチキーを定義すると、マッチングエンジンが Experss マッチキーを最初に比較して、2 つのレコードが重複かどうかを判断できます。これにより、フィールドレベルのマッチルールをすべて評価する必要はなくなるので、パフォーマンスを大幅に向上させることができます。

Intraflow Match の方法

デフォルトの Intraflow Match マッチング方法では、同じマッチキーを持つすべてのレコードが比較されます。マッチキューのサイズが N の場合、デフォルトの方法では N−1 から N×(N−1) までのいずれかの回数の比較が実行されます。すべてのレコードがマッチした場合、比較回数は N-1 です。レコードがまったくマッチしなかった場合、比較回数は N×(N−1) です。たいていの場合、比較回数はこの範囲の後半部分のどこかの値になります。

パフォーマンスが優先事項である場合は、デフォルトの方法ではなく、スライディングウィンドウマッチング方法の使用を検討してください。スライディングウィンドウマッチング方法では、各レコードを次の W レコード (W はウィンドウサイズ) と比較します。ファイルサイズが N の場合、スライディングウィンドウ方法で実行される比較回数は最大で N×W です。この方法によってパフォーマンスは向上しますが、一部のマッチが検出されなくなることがあります。

マッチングの最適化

適切なマッチ キーの定義

パフォーマンスとマッチ結果のバランスを見出す

Express マッチ キー

Intraflow Match の方法

適切なマッチキーの定義

Express マッチキー