Generación de reglas de cruce

Las reglas de cruce se usan en Interflow Match, Intraflow Match y Transactional Match para definir los criterios que se utilizan para determinar si un registro coincide con otro. Las reglas de cruce especifican los campos que se van a comparar y cómo van a compararse, así como una jerarquía de comparaciones para las reglas de comparación complejas.

Puede generar reglas de cruce en Interflow Match, Intraflow Match y Transactional Match. También puede generar reglas de cruce en la herramienta Match Rule Management de Enterprise Designer. Si genera una regla en la herramienta Match Rule Management, esa regla podrá usarse en cualquier flujo de datos y también estará disponible para otros usuarios. Si genera una regla en alguna de las etapas de cruce, esa regla estará disponible solo para esa etapa, a menos que la guarde haciendo clic en el botón Guardar, con lo cual quedará disponible para otras etapas y usuarios.

Abra Enterprise Designer.
Realice una de estas acciones:
- Si desea definir una regla de cruce en Interflow Match, Intraflow Match o Transactional Match, haga doble clic en la etapa de cruce para la que desea definir la regla. En el campo Cargar regla de cruce, seleccione una regla de cruce predefinida como punto de partida. Si desea empezar con una regla de cruce en blanco, haga clic en Nuevo.
- Si desea definir una regla de cruce en la herramienta Administración de reglas de coincidencia, seleccione Herramientas > Administración de reglas de coincidencia. Si desea usar una regla ya existente como punto de partida para su regla, marque la casilla Copiar desde y seleccione la regla que va a usar como punto de partida.
Especifique los campos de flujo de datos que desea usar en la regla de cruce, así como la jerarquía de regla de cruce.
1. Haga clic en Agregar elemento principal.
2. Ingrese un nombre para el elemento principal. El nombre debe ser único y no puede ser un campo. El primer elemento principal de la jerarquía se usa como nombre de la regla de cruce en el campo Cargar regla de cruce. Todas las reglas de coincidencia personalizadas que cree y las reglas predefinidas que modifique se guardan con la palabra “Custom” anexada al principio del nombre.
3. Haga clic en Agregar elemento secundario. Aparecerá un menú desplegable en la jerarquía de regla. Seleccione un campo para agregarle al elemento principal.
  
  Nota: Todos los nodos secundarios de un nodo principal deben usar el mismo operador lógico. Si desea usar diferentes operadores lógicos para cada campo, primero deberá crear elementos principales intermedios.
4. Repita el proceso hasta completar la jerarquía de comparación.

Defina las opciones de los elementos principales. Las opciones para los elementos principales se muestran a la derecha de la jerarquía de regla cuando hay un nodo principal seleccionado.

Haga clic en Coincidir cuando no sea verdadero para cambiar el operador lógico del elemento principal de Y a Y NO. Si selecciona esta opción, los registros solo coincidirán si no coinciden con la lógica definida en este elemento principal.

Nota: Comprobar la opción Coincidir cuando no sea verdadero tiene el efecto de negar las opciones del Método de comparación. Para obtener más información, consulteCondiciones de cruce negativas.
En el campo Método de comparación especifique cómo determinar si un elemento principal presenta un cruce o no. Una de las siguientes:
Todo verdadero

Se considera que un elemento principal es un cruce si todos los elementos secundarios están determinados para el cruce. Este método crea un conector "AND" entre los elementos secundarios.

Cualquier elemento verdadero

Se considera que un elemento principal es un cruce si al menos uno de los elementos secundarios está determinado para el cruce. Este método crea un conector "OR" entre los elementos secundarios.

Según el umbral

Se considera que un elemento principal es un cruce si la calificación del elemento principal es mayor o igual que el umbral del elemento principal. Cuando selecciona esta opción, aparece la barra deslizante Umbral . Utilice esta barra deslizante para especificar un umbral. El método de calificación determina qué conector lógico utilizar. Los umbrales del elemento principal no pueden ser mayores que el umbral de los elementos secundarios.
Nota: El umbral que se configura aquí puede invalidarse durante la ejecución en el cuadro de diálogo Opciones de flujo de datos. Vaya a Editar > Opciones de flujo de datos y haga clic en Agregar. Expanda la etapa, haga clic en Umbral de nivel superior e ingrese el umbral en el campo Valor predeterminado.
En el campo Datos faltantes especifique cómo calificar los campos vacíos. Una de las siguientes:
Ignorar espacios en blanco

Ignora el campo si está vacío.

Contar como 0

Asigna al campo una calificación de 0 si está vacío.

Contar como 100

Asigna al campo una calificación de 100 si está vacío.

Comparar espacios en blanco

Otorga campos sospechosos y candidatos como 100 si ambos contienen datos en blanco; de otro modo, otorga campos sospechosos y candidatos como 0.

En el campo Método de calificación seleccione el método utilizado para determinar la calificación de comparación. Una de las siguientes:

Promedio ponderado: Utiliza el peso de cada elemento secundario para determinar la calificación de cruce promedio.
Promedio: Utiliza la calificación promedio de cada elemento secundario para determinar la calificación del elemento principal.
Máximo: Utiliza la calificación más alta de los elementos secundarios para determinar la calificación del elemento principal.
Mínimo: Utiliza la calificación más baja de los elementos secundarios para determinar la calificación del elemento principal.
Suma total del vector: Uses the vector summation of each child score to determine the score of the parent. The formula for calculation is:
sqrt(a^2 + b^2 + c^2) / sqrt(n), where: a, b, and c are the scores of three children and n is the number of children.

La siguiente tabla muestra la relación lógica existente entre los métodos de comparación y los métodos de calificación, y cómo cada combinación cambia la lógica utilizada durante el proceso de cruce.

Tabla 1. Matriz del método de comparación y el método de calificación
Método de calificación	Método de comparación			Comentarios
Método de calificación	Cualquier elemento verdadero	Todo verdadero	Según el umbral	Comentarios
Promedio ponderado	N/A	AND	AND	Disponible solamente cuando se seleccionan como método de comparación Todo verdadero o Según el umbral.
Promedio	N/A	AND	AND
Suma total del vector	N/A	AND	AND
Máximo	OR	N/A	OR	Disponible solamente cuando se seleccionan como método de comparación Cualquier elemento verdadero o Según el umbral.
Mínimo	OR	N/A	OR

Defina las opciones de los elementos secundarios. Las opciones para los elementos secundarios se muestran a la derecha de la jerarquía de regla cuando hay un elemento secundario seleccionado.

Marque la opción Campo del candidato para asignar el campo del registro secundario seleccionado al campo en el archivo de entrada.
Verifique la opción Comparar de forma cruzada con y seleccione uno o más elementos de la lista desplegable para comparar diferentes entre dos registros. Si están utilizando la herramienta Administración de reglas de coincidencia para crear o editar una regla de coincidencia, no habrá lista desplegable sino que deberá ingresar cada nombre de campo, separado por comas.
Haga clic en Coincidir cuando no sea verdadero para cambiar el operador lógico de Y a NO. Si selecciona esta opción, la regla de cruce solo evaluará como verdadero si los registros no coinciden con la lógica definida en este elemento secundario.

Por ejemplo, si desea identificar individuos que están asociados a múltiples cuentas, podría crear una regla de cruce que coincida con el nombre pero que no coincida con el número de cuenta. Utilizaría la opción Coincidir cuando no sea verdadero para el elemento secundario que no coincide con el número de cuenta.
En el campo Datos faltantes especifique cómo calificar los campos vacíos. Una de las siguientes:
Ignorar espacios en blanco

Ignora el campo si está vacío.

Contar como 0

Asigna al campo una calificación de 0 si está vacío.

Contar como 100

Asigna al campo una calificación de 100 si está vacío.

Comparar espacios en blanco

Otorga campos sospechosos y candidatos como 100 si ambos contienen datos en blanco; de otro modo, otorga campos sospechosos y candidatos como 0.
En el campo Umbral, especifique el umbral cuyo criterio debe cumplirse a nivel del campo individual para que se determine que ese campo es un cruce.
En el campo Método de calificación seleccione el método utilizado para determinar la calificación de comparación. Una de las siguientes:
Promedio ponderado

Utiliza el peso de cada algoritmo para determinar la calificación de cruce promedio.

Promedio

Utiliza la calificación promedio de cada algoritmo para determinar la calificación de cruce.

Máximo

Utiliza la calificación más alta de los algoritmos para determinar la calificación de cruce.

Mínimo

Utiliza la calificación más baja de los algoritmos para determinar la calificación de cruce.

Suma total del vector

Uses vector summation of the score of each algorithm to determine the match score. This scoring method is useful if you want a higher match score in one or more algorithms to get proportionately represented in the final match score. The formula used for calculating the final score is:
sqrt(a^2 + b^2 + c^2) / sqrt(n), where: a, b, and c are the scores of three different algorithms and n is the number of algorithms used.

Elija uno o más algoritmos que se utilizarán para determinar si los valores del campo constituyen un cruce. Las opciones son:

Sigla

Determina si un nombre comercial coincide con su acrónimo buscando datos de acrónimos; de lo contrario, crea un acrónimo con la primera letra de cada palabra. Ejemplo: Internal Revenue Service y su sigla IRS serían considerados un cruce y arrojarían una calificación de cruce de 100.

Frecuencia de caracteres

Determina la frecuencia de aparición de cada carácter en una cadena y compara las frecuencias generales entre dos cadenas.

Daitch-Mokotoff Soundex

Algoritmo fonético que identifica con mayor precisión los apellidos eslavos e yiddish que tienen una pronunciación similar pero se escriben diferente. Los nombres codificados tienen seis dígitos y es posible obtener diversas codificaciones para un único nombre. Esta opción se desarrolló para responder a las limitaciones de Soundex en el procesamiento de apellidos germanos o eslavos.

Fecha

Compara los campos de fecha independientemente del formato de fecha de los registros de entrada. Haga clic en Editar en la columna Opciones para especificar lo siguiente:

Requerir mes: evita que las fechas que consisten solamente en un año presenten un cruce.
Requerir día: evita que las fechas que consisten solamente en un mes y un año presenten un cruce
Comparar MM/DD transpuestos: en los casos en que el mes y el día están en formato numérico, compara el mes sospechoso con el día candidato y el día sospechoso con el mes candidato, además de realizar la comparación estándar entre mes sospechoso y mes candidato y día sospechoso y día candidato
Preferir el formato DD/MM/AAAA al formato MM/DD/AAAA: contribuye al análisis de la fecha en aquellos casos en que tanto el mes como el día están en formato numérico y su identificación no se puede determinar por el contexto. Por ejemplo, dados los números 5 y 13, el analizador asignará automáticamente 5 al mes y 13 al día porque solo hay 12 meses en el año. Sin embargo, dados los números 5 y 12 (o dos números cualquiera que sean iguales o menores que 12), el analizador presupondrá que el número que aparece primero es el mes. Seleccionar esta opción asegura que el analizador considere que el primer número es el día en vez del mes.
Opciones de rango: General: permite configurar la cantidad máxima de días entre las fechas de comparación. Por ejemplo, si ingresa un rango general de 35 días y su fecha candidata es el 31 de diciembre de 2000, una fecha sospechosa del 5 de febrero de 2001 sería un cruce, pero no así una del 6 de febrero. Si ingresa un rango general de 1 día y su fecha candidata es enero de 2000, una fecha sospechosa de 1999 sería un cruce (al comparar el 31 de diciembre de 1999) pero no así una fecha sospechosa de enero de 2001.
Opciones de rango: Año: permite configurar la cantidad de años entre las fechas de comparación, independientemente del mes y el día. Por ejemplo, si ingresa 3 como rango de año y su fecha candidata es el 31 de enero de 2000, una fecha sospechosa del 31 de enero de 2003 sería un cruce, pero no así una fecha sospechosa de febrero de 2003. De la misma manera, si su fecha candidata es el año 2000, una fecha sospechosa de marzo de 2003 sería un cruce porque no se especifican los meses y está dentro del rango de tres años.
Opciones de rango: Mes: permite configurar la cantidad de meses entre las fechas de comparación, independientemente del año y el día. Por ejemplo, si ingresa 4 como rango de mes y su fecha candidata es el 1 de enero de 2000, una fecha sospechosa de mayo de 2000 es un cruce porque no se especifica un día y está dentro del rango de cuatro meses, pero una fecha sospechosa del 2 de mayo de 2000 no es un cruce porque los días no coinciden.
Opciones de rango: día: permite configurar la cantidad de días entre las fechas de comparación, independientemente del año y el mes. Por ejemplo, si ingresa 5 como rango de día y su fecha candidata es el 1 de enero de 2000, una fecha sospechosa de enero de 2000 es un cruce porque no se especifica un día, pero una fecha sospechosa del 27 de diciembre de 1999 no es un cruce, porque los meses no coinciden.

Doble metaphone

Determina la similitud entre dos cadenas según la representación fonética de sus caracteres. Double Metaphone es una versión mejorada del algoritmo Metaphone e intenta explicar la gran cantidad de irregularidades encontradas en los distintos idiomas.

Distancia de edición

Determina la similitud entre dos cadenas según el número de eliminaciones, inserciones o sustituciones que se requieren para transformar una cadena en otra.

Distancia euclidiana

Ofrece una medida de semejanza entre dos cadenas mediante el uso del espacio de vector de términos combinados como si fuera las dimensiones. También determina el máximo factor común de dos números enteros. Toma un par de números enteros positivos y forma un nuevo par compuesto por el número más pequeño y la diferencia entre los números más grande y más pequeño. El proceso se repite hasta que los números se igualan. El número resultante constituye el máximo factor común del par original. Por ejemplo, 21 es el máximo factor común de 252 y 105: (252 = 12 × 21; 105 = 5 × 21); ya que 252 − 105 = (12 − 5) × 21 = 147, el máximo factor común de 147 y 105 también es 21.

Cruce exacto

Determina si dos cadenas son iguales.

Iniciales

Se utiliza para cruzar las iniciales en nombres personales analizados.

Distancia de Jaro-Winkler

Determina la similitud entre dos cadenas según el número de caracteres que hay que reemplazar para transformar una cadena en otra. Esta opción se desarrolló para cadenas cortas, por ejemplo, nombres personales.

Distancia de teclado

Determina la similitud entre dos cadenas según el número de eliminaciones, inserciones o sustituciones que se requieren para transformar una cadena en otra, ponderada según la posición de las teclas en el teclado. Haga clic en Editar en la columna Opciones para especificar el tipo de teclado que utiliza: QWERTY (Estados Unidos), QWERTZ (Austria y Alemania) o AZERTY (Francia).

Koeln

Indexa los nombres por sonido, tal como se los pronuncia en alemán. Permite que los nombres que tienen la misma pronunciación se codifiquen con la misma representación, de modo tal que puedan cruzarse a pesar de las pequeñas diferencias en el modo en que se escriben. El resultado es siempre una secuencia de números; los caracteres especiales y los espacios en blanco se ignoran. Esta opción se desarrolló para responder a las limitaciones de Soundex.

Distancia de Kullback-Liebler

Determina la similitud entre dos cadenas según las diferencias que presentan en su distribución de palabras.

Metaphone

Determina la similitud entre dos cadenas en inglés según la representación fonética de sus caracteres. Esta opción se desarrolló para responder a las limitaciones de Soundex.

Metaphone (español)

Determina la similitud entre dos cadenas según la representación fonética de sus caracteres. Esta opción se desarrolló para responder a las limitaciones de Soundex.

Metaphone 3

Mejora los algoritmos de Metaphone y Double Metaphone con parámetros más exactos de consonantes y vocales internas que permiten pronunciar palabras y nombres que, fonéticamente, coinciden en mayor o menor medida con los términos de búsqueda. Metaphone 3 aumenta la precisión de la codificación fonética en un 98%. Esta opción se desarrolló para responder a las limitaciones de Soundex.

Variante de nombre

Determina si dos nombres son variantes entre sí. El algoritmo arroja una calificación de cruce de 100 si dos nombres son variaciones entre sí, y una calificación de cruce de 0 si los dos nombres no son variaciones entre sí. Por ejemplo, JOHN es una variación de JAKE y arroja una calificación de cruce de 100. JOHN no es una variación de HENRY y arroja una calificación de cruce de 0. Haga clic en Editar en la columna Opciones para seleccionar las opciones de Variante de nombre. Para obtener más información, consulteName Variant Finder.

Distancia NGram

Calcula en texto o habla la probabilidad del siguiente término basado en los términos n anteriores, que pueden incluir fonemas, sílabas, letras, palabras o pares de base y que pueden consistir en cualquier combinación de letras. Este algoritmo incluye una opción para ingresar el tamaño de NGram; el valor predeterminado es 2.

Similitud de NGram

Determines similarity between two strings based on the length of the longest common subsequence of phonemes, syllables, letters, words or base pairs.

The algorithm includes the following options:

Ngram size: Enter the size of the NGram. El valor predeterminado es 2.
Drop Noise Characters: Select the check-box to replace punctuation with space.
Drop Spaces: Select the check-box to merge words.

Cadena numérica

Compara las líneas de dirección separando los atributos numéricos de los caracteres en una línea de dirección. Por ejemplo, si la cadena de la dirección es 1234 Main Street Apt 567, los atributos numéricos de la cadena (1234567) se analizan y procesan de forma diferente al resto del valor de la cadena (Main Street Apt). Primero, el algoritmo cruza los datos numéricos de la cadena con el algoritmo numérico. Si el cruce de los datos numéricos es de 100, se cruzan los datos alfabéticos utilizando Distancia de edición y Frecuencia de caracteres. La calificación de cruce final se calcula de la siguiente manera:

(numericScore + (EditDistanceScore + CharacterFrequencyScore) / 2) / 2

Por ejemplo, la calificación de cruce de las siguientes dos direcciones es de 95,5 y se calcula de la siguiente manera:

123 Main St Apt 567
123 Maon St Apt 567

Calificación numérica = 100
Distancia de edición = 91
Frecuencia de caracteres = 91

91 + 91 = 182
182/2 = 91
100 + 91 = 191
191/2 = 95.5

Nysiis

Algoritmo de codificación fonética que cruza una pronunciación aproximada con una palabra escrita exacta e indexa palabras que se pronuncian de manera similar. Parte del sistema de inteligencia e identificación del estado de Nueva York (New York State Identification and Intelligence System). Supongamos que está buscando información sobre alguien en una base de datos de personas. Usted cree que el nombre de esa persona suena algo así como "John Smith", pero en realidad se escribe "Jon Smath". Si busca una coincidencia exacta para "John Smith" no obtendrá resultados. Sin embargo, si indexa la base de datos con el algoritmo de NYSIIS y realiza la búsqueda usando ese mismo algoritmo, obtendrá una coincidencia correcta porque el algoritmo indexa "John Smith" y "Jon Smath" como "JANSNATH". Esta opción se desarrolló como respuesta a las limitaciones de Soundex; a diferencia de este último, Nyssis utiliza algunos n-gramas multicarácter y mantiene la posición relativa de las vocales.

Nota: Este algoritmo no procesa caracteres no alfabéticos; por lo tanto, los registros que contengan caracteres de este tipo se procesarán con errores.

Phonix

Preprocesa cadenas de nombres aplicando más de 100 reglas de transformación a caracteres únicos o secuencias de varios caracteres. Diecinueve de esas reglas se aplican solo si los caracteres se encuentran al comienzo de la cadena, mientras que 12 de ellas se aplican solo cuando los caracteres se encuentran en medio de la cadena, y 28 se aplican únicamente si están al final de la cadena. La cadena de nombre transformada se codifica en un código compuesto por la primera letra seguida de tres dígitos (sin ceros ni números duplicados). Esta opción se desarrolló como respuesta a las limitaciones de Soundex; es más compleja y, por lo tanto, más lenta que esta última.

Soundex

Determina la similitud entre dos cadenas según la representación fonética de sus caracteres.

Subcadena de caracteres

Determina si una cadena aparece dentro de otra.

Alineación silábica

Combina la información fonética con cálculos basados en la distancia de edición. Convierte las cadenas que se van a comparar en su correspondiente secuencia de sílabas y calcula la cantidad de ediciones que se necesitan para convertir una secuencia de sílabas a otra.

La siguiente tabla describe la relación lógica que existe entre el número de algoritmos que usted puede utilizar según el método de calificación del elemento principal que haya seleccionado.

Tabla 2. Matriz del algoritmo de comparación y el método de calificación
Método de calificación	Algoritmos
Método de calificación	Simple	Múltiple
Promedio ponderado	N/A	Sí
Promedio	N/A	Sí
Máximo	Sí	Sí
Mínimo	N/A	Sí
Suma total del vector	N/A	Sí

Si define una regla en Interflow Match, Intraflow Match o Transactional Match y desea compartirla con otras etapas o usuarios, haga clic en el botón Guardar ubicado en la parte superior de la pantalla.