Mise en correspondance d'enregistrements d'une source avec ceux d'une autre source

Cette procédure explique comment utiliser un stage Interflow Match pour identifier les enregistrements d'une source correspondant à ceux d'une autre source. La première source contient des enregistrements suspects et la deuxième source contient les enregistrements candidats. Le flux de données ne met en correspondance que les enregistrements d'une source avec ceux d'une autre source. Il n'essaie pas de mettre en corrsepondance des enregistrements issus de la même source. Le flux de données regroupe les enregistrements dans des collections d'enregistrements correspondants et écrit ces collections dans un fichier de sortie.

  1. Dans Enterprise Designer, créez un flux de données.
  2. Faites glisser deux stages source sur le canevas. Configurez l'un d'eux de telle sorte qu'il pointe vers la source des enregistrements suspects et configurez l'autre pour qu'il pointe vers la source des enregistrements candidats.

    Pour obtenir les instructions sur la configuration des stages source, reportez-vous au Guide du concepteur du flux de données.

  3. Faites glisser un stage Match Key Generator sur le canevas et connectez-le à l'un des stages source.

    Par exemple, si vous utilisez un stage source Read from File, votre flux de données se présenterait désormais comme suit :

    Match Key Generator crée une clé non unique pour chaque enregistrement, qui peut ensuite être utilisée par les stages de rapprochement pour identifier les groupes d'enregistrements doublons potentiels. Les match keys facilitent la procédure de correspondance en vous permettant de regrouper les enregistrements par match key, puis de ne comparer les enregistrements que dans ces groupes.

    Remarque : Vous ajouterez un second stage Match Key Generator ultérieurement. Pour l'instant, vous n'en avez besoin que d'un sur le canevas.
  4. Double-cliquez sur le stage Match Key Generator.
  5. Cliquez sur Ajouter.
  6. Définissez la règle à utiliser pour générer une match key pour chaque enregistrement.
    Tableau 1. Options de Match Key Generator

    Nom de l'option

    Description/Valeurs valides

    Algorithme

    Définit l'algorithme à utiliser pour générer la clé de correspondance. L'un des éléments suivants :

    Consonne
    Renvoie les champs indiqués, les consonnes étant supprimées.
    Metaphone double
    Renvoie un code basé sur la représentation phonétique de leurs caractères. Le double Metaphone est une version améliorée de l'algorithme Metaphone et tente de prendre en compte les nombreuses irrégularités de plusieurs langues.
    Koeln
    Noms d'index par son, tels qu'ils sont prononcés en allemand. Permet aux noms ayant la même prononciation d'être encodés avec la même représentation afin qu'ils puissent être mis en correspondance, en dépit de différences mineures au niveau de l'orthographe. Le résultat est toujours une séquence de nombres ; les caractères spéciaux et les espaces blancs sont ignorés. Cette option a été développée en réponse aux limites du Soundex.
    MD5
    Algorithme qui produit une valeur hash de 128 bits. Cet algorithme est généralement utilisé pour vérifier l'intégrité des données.
    Metaphone
    Renvoie une clé codée Metaphone des champs sélectionnés. Metaphone est un algorithme qui code les mots à l'aide de leur sonorité lorsque prononcé en anglais.
    Metaphone (Espagnol)
    Renvoie une clé codée Metaphone des champs sélectionnés pour la langue espagnole. Cet algorithme Metaphone code les mots à l'aide de leur sonorité lorsque prononcé en espagnol.
    Metaphone3
    Procède à une amélioration en fonction des algorithmes Metaphone et Double Metaphone avec des paramètres de consonne et de voyelle interne exacts qui vous permet de produire des mots ou des noms mis en correspondance de manière plus ou moins proche pour rechercher des termes au niveau phonétique. Metaphone 3 augmente l'exactitude de l'encodage phonétique à 98 %. Cette option a été développée en réponse aux limites du Soundex.
    Nysiis
    L'algorithme de code phonétique qui met en correspondance une prononciation approximative avec une orthographe exacte et indexe des mots prononcés de manière similaire. Fait partie du système New York State Identification and Intelligence System. Imaginons, par exemple, que vous recherchez des informations sur une personne dans une base de données de personnes. Vous pensez que le nom de la personne sonne comme « John Smith », mais il est en fait orthographié « Jon Smyth ». Si vous procédez à une recherche de la correspondance exacte de « John Smith », aucun résultat n'est renvoyé. Cependant, si vous indexez la base de données à l'aide de l'algorithme NYSIIS et procédez à une recherche en utilisant de nouveau l'algorithme NYSIIS, la correspondance correcte est renvoyée car « John Smith » et « Jon Smyth » sont indexés comme « JAN SNATH » par l'algorithme.
    Phonix
    Pré-traite les chaînes de nom en appliquant plus de 100 règles de transformation à des caractères uniques ou à des séquences de plusieurs caractères. 19 de ces règles s'appliquent uniquement si les caractères figurent au début de la chaîne, tandis que 12 des règles s'appliquent uniquement si les caractères figurent au milieu de la chaîne et 28 des règles s'appliquent uniquement si les caractères figurent à la fin de la chaîne. La chaîne de nom transformée est cryptée en un code composé d'une lettre au début, suivie de trois chiffres (en enlevant les zéros et les nombres en double). Cette option a été développée pour répondre aux limites de Soundex ; elle est plus complexe et donc plus lente que Soundex.
    Soundex
    Renvoie un code Soundex des champs sélectionnés. Soundex produit un code de longueur fixe en s'appuyant sur la sonorité du mot lorsque prononcé en anglais.
    Substring
    Renvoie une partie spécifié du champ sélectionné.

    Nom de champ

    Indique le champ auquel vous souhaitez appliquer l'algorithme sélectionné pour générer la match key. Par exemple, si vous sélectionnez un champ appelé LastName et que vous choisissez l'algorithme Soundex, ce dernier est appliqué aux données dans le champ LastName pour produire une match key.

    Position de début

    Spécifie la position de départ dans le champ spécifié. Tous les algorithmes ne permettent pas de spécifier une position de départ.

    Longueur

    Spécifie la longueur de caractère à inclure à partir de la position de départ. Tous les algorithmes ne permettent pas de spécifier une longueur.

    Supprimer les caractères parasites :

    Supprime tout caractère non numérique et non alphanumérique, comme les traits d'union, les espaces blancs, et autres caractères spéciaux du champ d'entrée.

    Trier les entrées :

    Trie tous les caractères dans un champ d'entrée ou tous les termes dans un champ d'entrée par ordre alphabétique.

    Caractères
    Trie les valeurs de caractères d'un champ d'entrée avant de créer un identifiant unique.
    Termes
    Trie les valeurs de termes d'un champ d'entrée avant de créer un identifiant unique.
  7. Lorsque vous avez terminé de définir la règle, cliquez sur OK.
  8. Faites un clic droit sur le stage Match Key Generator sur le canevas et sélectionnez Copier le stage.
  9. Faites un clic droit dans une zone vide du canevas et sélectionnez Coller.
  10. Connectez la copie du Match Key Generator à l'autre stage source.

    Par exemple, si vous utilisez des stages d'entrée Read from File, votre flux de données se présenterait désormais comme suit :

    Le flux de données contient désormais deux stages Match Key Generator produisant des match keys pour toutes les sources utilisant exactement les mêmes règles. Il est essentiel que les stages Match Key Generator soient configurés de manière identique pour que ce flux de données fonctionne correctement.

  11. Faites glisser un stage Interflow Match sur le canevas et connectez chacun des stages Match Key Generator à celui-ci.

    Par exemple, si vous utilisez des stages d'entrée Read from File, votre flux de données se présenterait désormais comme suit :

  12. Double-cliquez sur le stage Interflow Match.
  13. Dans le champ Charger une règle de rapprochement, sélectionnez une des règles de correspondance prédéfinies que vous pouvez utiliser tel quel ou modifier pour répondre à vos besoins. Si vous souhaitez créer une nouvelle règle de correspondance sans utiliser une des règles de correspondance prédéfinies comme point de départ, cliquez sur Nouveau. Vous ne pouvez disposer que d'une règle personnalisée dans un flux de données.
    Remarque : La fonction Options de flux de données dans Enterprise Designer permet d'afficher la règle de correspondance pour la configuration au moment de l'exécution.
  14. Dans le champ Grouper par, sélectionnez Match Key.

    Cette opération aura pour effet de placer les enregistrements disposant de la même match key dans un groupe. La règle de correspondance s'applique aux enregistrements d'un groupe pour vérifier s'ils sont des doublons. La match key de chaque enregistrement est générée par les stages Generate Match Key que vous avez configurés précédemment dans cette procédure.

  15. Pour plus d'informations sur la modification des autres options, voir Création d'une règle de correspondance.
  16. Faites glisser un stage de collecteur de données sur le canevas et connectez-le au stage Interflow Match.

    Par exemple, si vous utilisiez un stage de collecteur de données Write To File, votre flux de données se présenterait comme suit :

  17. Double-cliquez sur le stage de collecteur de données et configurez-le.

    Pour obtenir des informations sur la configuration des stages de collecteur de données, reportez-vous au Guide du concepteur de flux de données.

Vous disposez désormais d'un flux de données qui met en correspondance les enregistrements de deux sources de données.

Exemple de mise en correspondance d'enregistrements de plusieurs sources

En tant qu'entreprise de publipostage direct, vous souhaitez identifier les personnes figurant sur une liste d'expédition interdite, afin de ne pas leur envoyer de courrier direct. Vous disposez d'une liste de destinataires dans un fichier et d'une liste de personnes ne souhaitant pas recevoir de courrier marketing direct dans un autre fichier (fichier de suppression).

Le flux de données suivant offre une solution à ce scénario commercial :

Le stage Read from File lit les données de votre liste de publipostage et le stage Read from File 2 lit les données de la liste de suppression. Les deux stages Match Key Generator sont configurés de manière identique, afin de produire une match key qui peut être utilisée par Interflow Match pour former des groupes de correspondances potentielles. Interflow Match identifie les enregistrements de la liste de publipostage figurant également dans la liste de suppression et marque ces enregistrements comme des doublons. Conditional Router envoie des enregistrements uniques, c'est-à-dire les enregistrements non trouvés dans la liste de suppression, au stage Write to File pour que celui-ci les écrive dans un fichier. Le stage Conditional Router envoie tous les autres enregistrements à Write to Null, où ils sont rejetés.