Information Extraction-Komponenten

Das Information Extraction-Modul enthält die folgenden Schritte.

  • Read From Documents: Liest unstrukturierte Eingabedaten aus verschiedenen Dateiformaten und extrahiert die Inhalte.
  • Entity Extractor: Extrahiert Entitäten wie Namen und Adressen aus unstrukturierten Daten, die als Zeichenfolgen übergeben werden.
  • Text Categorizer: Weist unstrukturierten Inhalten oder Klartext (wie in E-Mails, Nachrichtenartikeln und Kommentaren) benutzerdefinierte Kategorien zu, die darauf basieren, wie viel dieses Inhalts Material aus dieser Kategorie enthält.
  • Relationship Extractor: Extrahiert Beziehungen zwischen Entitäten.