Introduction à la catégorisation de texte

La catégorisation de texte, également appelée classification de texte, est le processus consistant à affecter des catégories personnalisées au contenu non structuré ou au texte en clair, tel que des courriers électroniques, des articles d'actualité et des commentaires, en fonction de la quantité de contenu correspondant à ladite catégorie. La catégorisation peut être effectuée en fonction du sujet, de l'auteur, de la date ou encore de quasiment tout système de classification de votre choix.

Vous pouvez créer votre propre élément de catégorisation en formant un modèle d'élément de catégorisation avec vos données et vos catégories. Le formateur analyse les données et stocke les informations qu'il obtient dans le processus de formation. Il analyse le contenu et détermine la catégorie à laquelle il appartient.

La fonctionnalité de catégorisation de texte utilise un processus de catégorisation de texte statistique. Elle applique des méthodes d'apprentissage machine pour apprendre des règles de classification automatique basées sur des documents de formation libellés par l'homme.

Étant donné que vous pouvez appliquer la catégorisation de votre choix, vous devez d'abord « former » votre modèle à « apprendre » les catégories. Ensuite, vous pouvez utiliser ce modèle dans le stage Text Categorizer pour catégoriser vos données non structurées.

Spectrum™ Technology Platform utilise les commandes de l'utilitaire Administration pour gérer les modèles de catégorisation de texte. Pour obtenir une description de ces commandes, reportez-vous à la section Commandes de l'utilitaire Administration.