Vorbereiten der Daten

Der erste Schritt zur Verwendung der Textkategorisierung ist die Vorbereitung Ihrer Eingabedatei und Ihrer Testdatei. Hierzu müssen Sie die Daten in beiden Dateien als durch Tabstopp getrennte Werte gliedern. Die Dateien müssen Details im folgenden Format aufweisen:

UFT-8-Codierung
Durch Tabstopp getrennte Daten in zwei Spalten, wobei die erste Spalte den Kategorienamen (z. B. „Patient“ oder „Anbieter“) und die zweite Spalte die Daten für die einzelnen Kategorien (wie im nachfolgenden Beispiel dargestellt) enthält

Ihre Daten sollten wie folgt aussehen:

Patient     John Smith dob04181963 224 Main St. Atl GA 30311 
Provider    Mark Johnson M.D. NPI5489512047 412 Washington Atl GA 30301