Configuración de las opciones para las entidades personalizadas

Esto involucra la creación de un archivo de Opciones de capacitación que contiene información sobre su modelo y las opciones que puede aplicar para la capacitación del modelo. Este archivo debe estar en formato XML con codificación UFT-8 y debe incluir este encabezado y las características de capacitación requeridas:

Encabezado en el archivo Opciones de capacitación

El encabezado menciona detalles del modelo, la ruta de la prueba y los archivos de entrada, además de una palabra clave para anotar las entidades personalizadas.

modelName: nombre del modelo personalizado
modelType: tipo del modelo personalizado (que es CustomEntity).
modelDescription: descripción del modelo personalizado
inputFilePath: ruta del archivo etiquetado utilizado para capacitar el modelo (archivo de entrada)
testFilePath: ruta del archivo utilizado para probar el modelo
magicWord: palabra clave utilizada para anotar las entidades personalizadas
idioma: el idioma utilizado en el texto.
Nota: Se admite el inglés. El holandés, el francés, el alemán y el español están en la etapa de desarrollo beta.

Características de capacitación

Puede usar estas características de capacitación para crear las entidades personalizadas

Características lingüísticas: para especificar las propiedades de idioma
- POSTagger: etiquete para identificar partes del discurso, como sustantivos, pronombres, adjetivos y verbos.
```
<trainingFeature>             
   <featureName>POSTagger</featureName>
</trainingFeature>
```
Características ortográficas: para especificar las propiedades estructurales
- CaseIdentifier: identifica si las entidades personalizadas están completamente en mayúsculas, en minúsculas o en una combinación de ambas.
```
<trainingFeature>
	<featureName>CaseIdentifier</featureName>
</trainingFeature>
```
- NumericIdentifier: identifica si las entidades personalizadas son numéricas o alfanuméricas.
```
<trainingFeature>
	<featureName>NumericIdentifier</featureName>
</trainingFeature>
```
- 1st2ndIdentifier: identifica si las entidades personalizadas son ordinales, como 1.^a, 2.^a y 3.^a.
```
<trainingFeature>
	<featureName>1st2ndIdentifier</featureName>
</trainingFeature>
```
- PatternMatcher: compara palabras con uno o más patrones con expresiones regulares. Cuando se proporcionan múltiples expresiones, incluye la condición de combinación AND para todas las expresiones o OR (valor predeterminado) para cualquier expresión.
```
<trainingFeature>
	<featureName>PatternMatcher</featureName>
		<featureParams>
			<entry>
				<key>RegEx1</key>
				<value>b[aeiou]t</value>
			</entry>
			<entry>
				<key>RegEx2</key>
				<value>b[xyz]t</value>
			</entry>
			<entry>
				<key>JoinCondition</key>
				<value>AND</value>
			</entry>
		</featureParams>
</trainingFeature>
```
Características de palabras clave: para definir la lista de palabras clave
- CategoryKeywords: identifica una categoría para una lista de palabras clave que pertenecen a múltiples listas personalizadas. Por ejemplo, Días de semana en la lista CategoryKeywords contiene Palabras clave como Lunes, Martes, Miércoles, Jueves y Viernes.
  Puede especificar esta característica en forma opcional si el cruce debe distinguir entre mayúsculas y minúsculas. Cuando la usa, el valor predeterminado es true.
```
<trainingFeature>
	<featureName>CategoryKeywords</featureName>
	<featureParams>
		<entry>
			<key>Weekdays</key> 
                    
			<value>Monday,Tuesday,Wednesday,Thursday,Friday</value>
		</entry>
		<entry>
			<key>WeekendDays</key>
                    
			<value>Saturday,Sunday</value>
		</entry>
		<entry>
			<key>CaseSensitive</key>
                    <value>True</value>
		</entry>
	</featureParams>
</trainingFeature>
```
- KeyWords: busca las palabras que especificó como pertenecientes a una lista personalizada, como DaysOfWeek o Month. De forma opcional, también especifica si el cruce debe distinguir mayúsculas de minúsculas; cuando se utiliza, el valor predeterminado es "verdadero".
```
<trainingFeature>
	<featureName>KeyWords</featureName>
	<featureParams>
		<entry>
			<key>KeyWordList</key>
			<value>Monday,Tuesday</value>
		</entry>
		<entry>
			<key>CaseSensitive</key>
			<value>False</value>
		</entry>
	</featureParams>
</trainingFeature>
```
- Substring: extrae parte de una cadena como se especifica en los parámetros. También puede utilizarse para las extracciones de prefijo y sufijos.
  - StartLocation: izquierda o derecha. La posición en la que debe extraerse la subcadena. El valor predeterminado es Izquierda.
  - StartPosition: la posición de inicio de la subcadena. El valor predeterminado es 0.
  - EndPosition: la posición final para la subcadena. El valor predeterminado es 3.
  - MinLength: la longitud mínima de la palabra para la cual debe aplicarse esta función. El valor predeterminado es 3.
```
<trainingFeature>
	<featureName>Substring</featureName>
		<featureParams>
			<entry>
				<key>StartLocation</key>
			</entry>
			<entry>
				<key>StartPosition</key>
				<value>1</value>
			</entry>
			<entry>
				<key>EndPosition</key>
				<value>4</value>
			</entry>
			<entry>
				<key>MinLength</key>
		</featureParams>
</trainingFeature>
```

Características léxicas: para especificar las propiedades de lexema

FeatureWindow: especifica la ventana para la generación de características

<trainingFeature>
	<featureName>FeatureWindow</featureName>
	<!-- Number of preceding tokens used to create the feature set. Default is 3 -->
		<entry>
			<key>Before</key>
			<value>1</value>
		</entry>
	<!-- Number of succeeding tokens used to create the feature set. Default is 3 -->
		<entry>
			<key>After</key>
			<value>2</value>
		</entry>
</trainingFeature>

A continuación encontrará un archivo completo de opciones de capacitación de ejemplo para entidades personalizadas:

<trainingOptions>
	<modelName>CustomModel</modelName>
	<modelType>CustomEntity</modelType>
	<modelDescription>CustomDiagnosesModel</modelDescription>
	<inputFilePath>C:/SpectrumIE/custom_model/Custom_Input.csv</inputFilePath>
	<testFilePath>C:/SpectrumIE/custom_model/Custom_Test.txt</testFilePath>
       <magicWord>DIAGNOSIS</magicWord>
       <language>English</language>
	
      <trainingFeatures>
	
	<!-- Lexical features-->
	<trainingFeature>
		<featureName>FeatureWindow</featureName>
		<featureParams>
			<entry>
				<key>Before</key>
				<value>1</value>
			</entry>
			<entry>
				<key>After</key>
				<value>2</value>
			</entry>
		</featureParams>
	</trainingFeature>

	<!-- Orthographic features-->
	<trainingFeature>
		<featureName>CaseIdentifier</featureName>
      </trainingFeature>

	<trainingFeature>
		<featureName>NumericIdentifier</featureName>
	</trainingFeature>
	</trainingFeatures>
 </trainingOptions>