Information Extraction-Komponenten

Das Information Extraction-Modul enthält die folgenden Schritte.

Read From Documents: Liest unstrukturierte Eingabedaten aus verschiedenen Dateiformaten und extrahiert die Inhalte.
Entity Extractor: Extrahiert Entitäten wie Namen und Adressen aus unstrukturierten Daten, die als Zeichenfolgen übergeben werden.
Text Categorizer: Weist unstrukturierten Inhalten oder Klartext (wie in E-Mails, Nachrichtenartikeln und Kommentaren) benutzerdefinierte Kategorien zu, die darauf basieren, wie viel dieses Inhalts Material aus dieser Kategorie enthält.
Relationship Extractor: Extrahiert Beziehungen zwischen Entitäten.