Création d'un enregistrement Best of Breed

Pour éliminer des enregistrements en double de vos données, vous pouvez choisir de fusionner des données issues de groupes d'enregistrements en double en un enregistrement « best of breed » unique. Cette approche s'avère utile lorsque chaque enregistrement en double contient des données du même type (par exemple, des numéros de téléphone ou des noms) et que vous souhaitez préserver les meilleures données de chaque enregistrement dans l'enregistrement restant.

Cette procédure décrit la manière dont créer un flux de données qui fusionne des enregistrements en double en un enregistrement best of breed.

  1. Dans Enterprise Designer, créez un flux de données identifiant les enregistrements en double à travers une mise en correspondance.

    La mise en correspondance est la première étape dans la déduplication, car vous devez identifier des enregistrements similaires, tels que des enregistrements disposant du même nom ou numéro de compte. Pour en savoir plus sur la création d'un flux de données qui met en correspondance les enregistrements, reportez-vous aux rubriques suivantes.

    Remarque : Vous devez uniquement créer le flux de données au stade où il lit les données et effectue une mise en correspondance avec un stage Interflow Match, Intraflow Match ou Transactional Match. Une fois que vous avez créé un flux de données à ce stade, continuez avec les étapes suivantes.
  2. Une fois que vous avez défini un flux de données qui lit les données et met en correspondance les enregistrements, faites glisser un stage Best of Breed sur le canevas et connectez-le au stage qui effectue la mise en correspondance (Interflow Match, Intraflow Match ou Transactional Match).

    Par exemple, si votre flux de données lit des données à partir d'un fichier et effectue une mise en correspondance avec Intraflow Match, votre flux de données ressemblera à ce qui suit, après avoir ajouté un stage Best of Breed :

  3. Double-cliquez sur le stage Best of Breed sur le canevas.
  4. Dans le champ Grouper par, sélectionnez NuméroCollection.
  5. Sous Paramètres Best Of Breed, sélectionnez Règles dans l'arborescence des conditions.
  6. Cliquez sur Ajouter une règle.

    Les enregistrements de chaque groupe sont évalués pour déterminer s'ils respectent les règles que vous définissez ici. Si un enregistrement correspond à une règle, ses données peuvent être copiées dans l'enregistrement best of breed, selon la manière dont vous configurez les actions associées à la règle. Vous définirez les actions ultérieurement.

  7. Définissez une règle qu'un enregistrement en double doit respecter pour que ses données soient copiées dans l'enregistrement best of breed.

    Utilisez les options suivantes pour définir une règle :

    Option Description

    Nom du champ

    Indique le nom du champ de flux de données dont vous souhaitez évaluer la valeur afin de déterminer si la condition est remplie, ainsi que les actions associées à effectuer.

    Type de champ

    Indique le type de données dans le champ. L'un des éléments suivants :

    Non-numérique
    Choisissez cette option si le champ contient des données non numériques (par exemple, des données de chaîne).
    numériques
    Choisissez cette option si le champ contient des données numériques (par exemple, double, flottantes, etc.).

    Opérateur

    Indique le type de comparaison à utiliser pour évaluer le champ. L'un des éléments suivants :

    Contient
    Détermine si le champ contient la valeur indiquée. Par exemple, « bateau à voile » contient la valeur « bateau ».
    Est égal à
    Détermine si le champ contient la valeur exacte indiquée.
    Est supérieur à
    Détermine si la valeur du champ est supérieure à la valeur spécifiée. Cette opération ne fonctionne que sur les champs numériques.
    Supérieur ou Egal à
    Détermine si la valeur du champ est supérieure ou égale à la valeur spécifiée. Cette opération ne fonctionne que sur les champs numériques.
    Le plus haut
    Compare la valeur du champ pour tout le groupe d'enregistrements et identifie l'enregistrement qui possède la valeur la plus élevée dans le champ. Par exemple, si les champs dans ce groupe contiennent les valeurs 10, 20, 30, et 100, l'enregistrement qui dispose de la valeur 100 est sélectionné. Cette opération ne fonctionne que sur les champs numériques. Si plusieurs enregistrements sont à égalité pour la valeur la plus longue, un enregistrement est sélectionné.
    Est vide
    Détermine si le champ ne contient aucune valeur.
    N'est pas vide
    Détermine si le champ contient une valeur.
    Inférieur à
    Détermine si la valeur du champ est inférieure à la valeur spécifiée. Cette opération ne fonctionne que sur les champs numériques.
    Inférieur ou Egal à
    Détermine si la valeur du champ est inférieure ou égale à la valeur spécifiée. Cette opération ne fonctionne que sur les champs numériques.
    Le plus long
    Compare la valeur du champ pour tout le groupe d'enregistrements et identifie l'enregistrement qui possède la valeur la plus longue (en octets) dans le champ. Par exemple, si le groupe contient les valeurs « Mike » et « Michael », l'enregistrement possédant la valeur « Michael » est choisi. Si plusieurs enregistrements sont à égalité pour la valeur la plus longue, un enregistrement est sélectionné.
    Le plus bas
    Compare la valeur du champ pour tout le groupe d'enregistrements et identifie l'enregistrement qui possède la valeur la plus basse dans le champ. Par exemple, si les champs dans ce groupe contiennent les valeurs 10, 20, 30, et 100, l'enregistrement qui dispose de la valeur 10 est sélectionné. Cette opération ne fonctionne que sur les champs numériques. Si plusieurs enregistrements sont à égalité pour la valeur la plus longue, un enregistrement est sélectionné.
    Le plus commun
    Détermine si la valeur de champ contient la valeur qui se produit le plus fréquemment dans ce champ parmi les enregistrements dans ce groupe. Si deux valeurs, ou plus, sont les plus courantes, aucun action ne sera réalisée.
    N'est pas égal
    Détermine si la valeur du champ n'est pas égale à la valeur spécifiée.

    Type de valeur

    Indique le type de valeur à comparer avec la valeur du champ. L'un des éléments suivants :

    Remarque : Cette option n'est pas disponible si vous sélectionnez l'opérateur Highest, Lowest ou Longest.
    Champ
    Choisissez cette option si vous souhaitez comparer une autre valeur du champ de flux de données avec le champ.
    Chaîne
    Choisissez cette option si vous souhaitez comparer le champ avec une valeur spécifique.
    Valeur

    Indique la valeur à comparer avec la valeur du champ. Si vous avez sélectionnez Champ dans le champ Type de champ, sélectionnez un champ de flux de données. Si vous avez sélectionné Chaîne dans le champ Type de valeur, tapez la valeur à utiliser dans la comparaison.

    Remarque : Cette option n'est pas disponible si vous sélectionnez l'opérateur Highest, Lowest ou Longest.
  8. Cliquez sur OK.
  9. Cliquez sur le nœud Actions dans l'arborescence.
  10. Cliquez sur Ajouter une action.
  11. Indiquez les données à copier dans l'enregistrement best of breed si l'enregistrement répond aux critères que vous avez défini dans la règle.
    Option Description

    Type de la source

    Indique le type de données à copier dans l'enregistrement Best Of Breed. Un des éléments suivants.

    Champ
    Choisissez cette option pour copier une valeur d'un champ dans l'enregistrement Best Of Breed.
    Chaîne
    Choisissez cette option pour copier une valeur constante dans l'enregistrement Best Of Breed.

    Données sources

    Indique les données à copier dans l'enregistrement Best Of Breed. Si le type de source est Field, sélectionnez le champ dont vous souhaitez copier la valeur dans le champ de destination. Si le type de source est String, indiquez une valeur constante à copier dans le champ de destination.

    Cible

    Indique le champ dans l'enregistrement Best Of Breed dans lequel vous souhaitez copier les données spécifiées dans le champ Données source.

    Accumuler les données sources

    Si les données dans le champ Données source sont des données numériques, vous pouvez activer cette option afin de combiner les données source pour tous les enregistrements doublons et insérer la valeur totale dans l'enregistrement Best Of Breed.

    Par exemple, s'il existe trois enregistrements doublons dans le groupe et que ceux-ci contenaient ces valeurs dans le champ Deposits :

    100.00
    20.00
    5.00

    Les trois valeurs serait combinées et la valeur totale (125,00) serait insérée dans le champ Deposits de l'enregistrement Best Of Breed.

  12. Cliquez sur OK.

    Vous avez désormais configuré Best Of Breed avec une règle et une action. Vous pouvez ajouter d'autres règles et actions si nécessaire.

  13. Cliquez sur OK pour fermer la fenêtre Options Best of Breed.
  14. Faites glisser un stage de collecteur de données sur le canevas et connectez-le au stage Best of Breed.

    Par exemple, si vous utilisiez un stage de collecteur de données Write To File, votre flux de données se présenterait comme suit :

  15. Double-cliquez sur le stage de collecteur de données et configurez-le.

    Pour obtenir des informations sur la configuration des stages de collecteur de données, reportez-vous au Guide du concepteur de flux de données.

Vous disposez désormais d'un flux de données identifiant les enregistrements correspondants et fusionnant les enregistrements en une collection dans un enregistrement Best Of Breed.