Standardisation des termes

Une utilisation incohérente de la terminologie peut représenter un problème de qualité des données qui cause des difficultés d'analyse, de recherche, etc. Vous pouvez créer un flux de données qui recherche dans vos données des termes utilisés de manière incohérente et les standardise. Par exemple, si vos données incluent les termes « Incorporated », « Inc. » et « Inc » dans le nom de société, vous pouvez créer un flux de données permettant de standardiser le format (par exemple, « Inc. »).

Remarque : Avant d'effectuer cette procédure, votre administrateur doit installer la base de données du module Data Normalization contenant les termes standardisés que vous souhaitez appliquer à vos données. Vous trouverez les instructions d'installation des bases de données dans le Guide d'installation.
  1. Dans Enterprise Designer, créez un flux de données.
  2. Faites glisser un stage source sur le canevas.
  3. Double-cliquez sur le stage source et configurez-le. Pour obtenir les instructions sur la configuration des stages source, reportez-vous au Guide du concepteur du flux de données.
  4. Faites glisser un stage Table Lookup sur le canevas et connectez-le au stage source.

    Par exemple, si vous utilisiez un stage Read from File, votre flux de données se présenterait comme suit :

  5. Double-cliquez sur le stage Table Lookup sur le canevas.
  6. Pour spécifier des options pour Table Lookup, vous créez une règle. Vous pouvez créer plusieurs règles puis spécifier l'ordre dans lequel ces règles seront appliquées. Cliquez sur Ajouter pour créer une règle.
  7. Dans le champ Action, laissez l'option Standardiser par défaut sélectionnée.
  8. Dans le champ Le, laissez l'option Compléter le champ sélectionnée si l'ensemble du champ correspond au terme que vous souhaitez standardiser. Vous pouvez également choisir Termes individuels dans le champ pour standardiser différents mots dans le champ.
  9. Dans le champ Source, sélectionnez le champ à standardiser.
  10. Dans le champ Destination, sélectionnez le champ qui doit contenir le terme standardisé. Si vous indiquez le même champ comme champ source, la valeur du champ source sera remplacée par le terme standardisé.
  11. Dans le champ Table, sélectionnez la table contenant les termes standardisés.
    Remarque : Si vous ne voyez pas la table dont vous avez besoin, contactez votre administrateur système. La base de données du module Data Normalization doit être chargée.
  12. Dans le champ Quand l'entrée de table est introuvable, définir la valeur de destination sur, sélectionnez Valeur de la source.
  13. Cliquez sur OK.
  14. Définissez des règles supplémentaires pour standardiser les valeurs d'autres champs. Lorsque vous avez terminé de définir les règles, cliquez sur OK.
  15. Faites glisser un stage de collecteur de données sur le canevas et connectez-le à Table Lookup.

    Par exemple, si vous utilisiez Write to File, votre flux de données se présenterait comme suit :

  16. Double-cliquez sur le stage de collecteur de données et configurez-le.

    Pour obtenir des informations sur la configuration des stages de collecteur de données, reportez-vous au Guide du concepteur de flux de données.

Vous disposez désormais d'un flux de données qui standardise les termes.