Konfigurieren der Optionen für benutzerdefinierte Entitäten
Dies beinhaltet die Erstellung einer Datei mit Trainingsoptionen, die Informationen zu Ihrem Modell und die beim Training des Modells anzuwendenden Optionen enthält. Diese Datei muss im XML-Format mit UFT-8-Codierung vorliegen. Sie muss folgende Features für Header und das erforderliche Training enthalten:
Header in der Datei mit Trainingsoptionen
Der Header enthält Details zu dem Modell, dem Testpfad und Eingabedateien sowie zum Schlüsselwort für Anmerkungen zu benutzerdefinierten Entitäten.
modelName
: Name des benutzerdefinierten ModellsmodelType
: Der Typ des benutzerdefinierten Modells (der CustomEntity lautet).modelDescription
: Beschreibung des benutzerdefinierten ModellsinputFilePath
: Pfad der markierten Datei, die zum Trainieren des Modells verwendet wird (Eingabedatei)testFilePath
: Pfad der Datei, die zum Testen des Modells verwendet wird- magicWord: Schlüsselwort für Anmerkungen zu benutzerdefinierten Entitäten
- language: Die im Text verwendete Sprache. Anmerkung: Englisch wird unterstützt. Niederländisch, Französisch, Deutsch und Spanisch befinden sich in der Beta-Phase.
Trainingsfeatures
Sie können die benutzerdefinierten Entitäten mithilfe der folgenden Trainingsfeatures erstellen.
- Sprachliche Features: Für die Angabe der Spracheigenschaften
- POSTagger: Markieren zum Identifizieren von Wortarten, wie z. B. Nomen, Pronomen, Adjektiven und Verben.
<trainingFeature> <featureName>POSTagger</featureName> </trainingFeature>
- POSTagger: Markieren zum Identifizieren von Wortarten, wie z. B. Nomen, Pronomen, Adjektiven und Verben.
- Orthografische Features: Für die Angabe der strukturellen Eigenschaften
CaseIdentifier
: Gibt an, ob die benutzerdefinierten Entitäten in Großbuchstaben, in Kleinbuchstaben oder in einer Mischung aus beidem geschrieben werden.<trainingFeature> <featureName>CaseIdentifier</featureName> </trainingFeature>
NumericIdentifier
: Gibt an, ob die benutzerdefinierten Entitäten numerisch oder alphanumerisch sind.<trainingFeature> <featureName>NumericIdentifier</featureName> </trainingFeature>
1st2ndIdentifier
: Gibt an, ob es sich bei den benutzerdefinierten Entitäten um Ordnungszahlen wie 1., 2. und 3. handelt.<trainingFeature> <featureName>1st2ndIdentifier</featureName> </trainingFeature>
PatternMatcher
: Vergleicht Wörter mithilfe von regulären Ausdrücken mit mindestens einem Muster. Wenn mehrere Ausdrücke angegeben sind, wird die Join-BedingungAND
für alle Ausdrücke oderOR
(Standard) für einen beliebigen Ausdruck verwendet.<trainingFeature> <featureName>PatternMatcher</featureName> <featureParams> <entry> <key>RegEx1</key> <value>b[aeiou]t</value> </entry> <entry> <key>RegEx2</key> <value>b[xyz]t</value> </entry> <entry> <key>JoinCondition</key> <value>AND</value> </entry> </featureParams> </trainingFeature>
- Schlüsselwortfeatures: Zum Definieren der Liste mit Schlüsselwörtern
CategoryKeywords
: Gibt eine Kategorie für eine Liste mit Schlüsselwörtern an, die zu mehreren benutzerdefinierten Listen gehören. Beispiel: „Wochentage“ in der Liste CategoryKeywords enthält die Schlüsselwörter Montag, Dienstag, Mittwoch, Donnerstag und Freitag.Dieses Feature kann optional angeben, ob beim Abgleich die Groß-/Kleinschreibung beachtet werden soll. Bei einer Verwendung lautet der Standard
true
.<trainingFeature> <featureName>CategoryKeywords</featureName> <featureParams> <entry> <key>Weekdays</key> <!-- List of weekdays --> <value>Monday,Tuesday,Wednesday,Thursday,Friday</value> </entry> <entry> <key>WeekendDays</key> <!-- List of weekend days --> <value>Saturday,Sunday</value> </entry> <entry> <key>CaseSensitive</key> <value>True</value> </entry> </featureParams> </trainingFeature>
KeyWords
: Sucht nach Wörtern, die Sie als zu einer benutzerdefinierten Liste gehörig angegeben haben, z. B. DaysOfWeek oder Month. Gibt zudem optional an, ob beim Abgleich die Groß-/Kleinschreibung beachtet werden soll. Bei einer Verwendung lautet der Standard „true“.<trainingFeature> <featureName>KeyWords</featureName> <featureParams> <entry> <key>KeyWordList</key> <value>Monday,Tuesday</value> </entry> <entry> <key>CaseSensitive</key> <value>False</value> </entry> </featureParams> </trainingFeature>
Substring
: Extrahiert eine Teilzeichenfolge wie in den Parametern angegeben. Kann auch zum Extrahieren von Präfixen und Suffixen verwendet werden.StartLocation
: Links oder rechts. Position, an der die Teilzeichenfolge extrahiert werden soll. Der Standard ist Links.StartPosition
: Startposition der Teilzeichenfolge. Der Standardwert ist 0.EndPosition
: Endposition der Teilzeichenfolge. Der Standardwert ist 3.MinLength
: Minimale Länge des Worts, auf das dieses Feature angewendet werden soll. Der Standardwert ist 3.
<trainingFeature> <featureName>Substring</featureName> <featureParams> <entry> <key>StartLocation</key> </entry> <entry> <key>StartPosition</key> <value>1</value> </entry> <entry> <key>EndPosition</key> <value>4</value> </entry> <entry> <key>MinLength</key> </featureParams> </trainingFeature>
- Lexikalische Features: Für die Angabe der Eigenschaften von Lexemen
- FeatureWindow: Gibt das Fenster für die Featuregenerierung an
<trainingFeature> <featureName>FeatureWindow</featureName> <!-- Number of preceding tokens used to create the feature set. Default is 3 --> <entry> <key>Before</key> <value>1</value> </entry> <!-- Number of succeeding tokens used to create the feature set. Default is 3 --> <entry> <key>After</key> <value>2</value> </entry> </trainingFeature>
- FeatureWindow: Gibt das Fenster für die Featuregenerierung an
Unten finden Sie eine vollständige Beispieldatei mit Trainingsoptionen für benutzerdefinierte Entitäten:
<trainingOptions>
<modelName>CustomModel</modelName>
<modelType>CustomEntity</modelType>
<modelDescription>CustomDiagnosesModel</modelDescription>
<inputFilePath>C:/SpectrumIE/custom_model/Custom_Input.csv</inputFilePath>
<testFilePath>C:/SpectrumIE/custom_model/Custom_Test.txt</testFilePath>
<magicWord>DIAGNOSIS</magicWord>
<language>English</language>
<trainingFeatures>
<!-- Lexical features-->
<trainingFeature>
<featureName>FeatureWindow</featureName>
<featureParams>
<entry>
<key>Before</key>
<value>1</value>
</entry>
<entry>
<key>After</key>
<value>2</value>
</entry>
</featureParams>
</trainingFeature>
<!-- Orthographic features-->
<trainingFeature>
<featureName>CaseIdentifier</featureName>
</trainingFeature>
<trainingFeature>
<featureName>NumericIdentifier</featureName>
</trainingFeature>
</trainingFeatures>
</trainingOptions>