Module Data Normalization

Le module Data Normalization examine les termes dans un enregistrement et détermine si le terme est au format préféré.

Composants

Le module Data Normalization est constitué des éléments suivants :

  • Advanced Transformer : ce stage scanne et divise les chaînes de données en plusieurs champs, en plaçant les données extraites et non extraites dans un champ existant ou un nouveau champ.
  • Open Parser : ce stage décompose et analyse vos données d'entrée provenant de plusieurs cultures du monde en utilisant une grammaire simple mais puissante. En utilisant cette grammaire, vous pourrez définir une séquence d'expressions représentant des modèles de domaine utiles au parsing (décomposition analytique) de vos données d'entrée. Open Parser recueille également des statistiques et note les correspondances de parsing afin de vous aider à décider de l'efficacité de vos grammaires de parsing.
  • Table Lookup : ce stage évalue un terme et le compare avec une forme de ce terme ayant été préalablement validée. Si le terme n'est pas dans la forme requise, alors la version standard le remplace. Table Lookup peut aussi remplacer un mot complet par son abréviation, une abréviation par un mot entier, changer un surnom en nom entier ou corriger une faute d'orthographe
  • Transliterator : convertit une chaîne en écriture latine vers d'autres scripts.