Formalización de análisis de nombres personales

Esta plantilla de flujo de datos muestra cómo tomar datos de nombres personales (por ejemplo "Juan P. Smith" ), identificar apodos comunes del mismo nombre, y crear una versión estándar de los nombres que luego puede ser utilizada para consolidar registros repetidos. También muestra cómo se puede agregar datos de título de respeto basándose en datos sobre género.

Situación empresarial posible

Usted trabaja para una organización sin fines de lucro que quiere enviar invitaciones para una fiesta. Sus datos de entrada incluyen nombres completos y quiere dividirlos en los campos de nombre, segundo nombre y apellido, y agregar un campo de tratamiento para que sus invitaciones sean más formales. También quiere reemplazar cualquier apodo de los datos de nombre para usar una variante más formal del nombre.

El siguiente flujo de datos ofrece una solución ante una posible situación empresarial:



Esta plantilla de flujo de datos está disponible en Enterprise Designer. Vaya a Archivo > Nuevo > Flujo de datos > Desde plantilla y seleccioneStandardizePersonalNames Este flujo de datos requiere de los módulos Data Normalization y Universal Name.

Para cada fila de datos del archivo de entrada, este flujo de datos hará lo siguiente:

Read from File

La etapa Read from File (Lectura desde archivo) identifica el nombre, la ubicación y el diseño del archivo que contiene los nombres que desea analizar. El archivo contiene tanto nombres masculinos como femeninos.

Name Parser

En esta plantilla, la etapa Name Parser (Analizador de nombre) se denomina Parse Personal Name (Análisis de nombres personales). La etapa Parse Personal Name examina los campos de nombre y los compara con los datos almacenados en los archivos de bases de datos de nombres de Spectrum™ Technology Platform. Según la comparación, divide los datos de nombre en los campos de nombre, segundo nombre y apellido, y asigna un tipo de entidad y un género a cada nombre. También utiliza el reconocimiento de patrones además de los datos de nombre.

En esta plantilla, la etapa Parse Personal Name se configura de la siguiente manera.

  • Se selecciona la opción Analizar nombres personales y se desmarca la opción Analizar nombres de empresas. Cuando seleccionan estas opciones, los nombres de pila se evalúan en cuanto a género, orden, puntuación y no se realiza una evaluación de nombres de empresas.
  • El Origen de determinación de género está configurado de manera predeterminada. En la mayoría de los casos, la configuración predeterminada es la mejor opción para determinar el género porque cubre una amplia variedad de nombres. De todas maneras, si está procesando nombres de una cultura específica, seleccione esa cultura. La selección de una cultura específica contribuye a garantizar la asignación del género correcto a los nombres. Por ejemplo, si se deja la opción predeterminada seleccionada, el nombre Jean será identificado como un nombre femenino. Sin embargo, si selecciona francés, será identificado como un nombre masculino.
  • El orden configurado es el natural. Los campos de nombre están ordenados por tratamiento, nombre, segundo nombre, apellido y sufijo.
  • La opción Retener puntos está desmarcada. No se mantiene ninguna puntuación en los datos de nombres.

Transformer

En esta plantilla, la etapa Transformer (Transformador) se denomina Assign Titles (Asignación de tratamientos). La etapa Assign Titles utiliza una secuencia de comandos personalizada para examinar cada fila en la transmisión de datos enviados por la etapa Parse Personal Name y les asigna un valor TitleOfRespect según el valor GenderCode.

La secuencia de comandos personalizada:

if (row.get('TitleOfRespect') == '')
{
	if (row.get('GenderCode') == 'M')
		row.set('TitleOfRespect', 'Mr')
	if (row.get('GenderCode') == 'F')
		row.set('TitleOfRespect', 'Ms') 

Cada vez que la etapa Assign Titles encuentra M en el campo GenderCode, define el valor para TitleOfRespect como Mr. Cada vez que las etapas Assign Titles encuentran F en el campo GenderCode, define el valor para TitleOfRespect como Ms.

Plantillas de flujo de datos para comparación

En esta plantilla, la etapa Standardization (Estandarización) se denomina Standardize Nicknames (Estandarización de apodos). La etapa Standardize Nickname busca nombres en la base de datos Nicknames.xml y reemplaza cualquier apodo con la forma más común del nombre. Por ejemplo, el nombre Tommy es reemplazado por Thomas.

Write to File

La plantilla contiene una etapa Write to File (Escritura en archivo). Además de los campos de entrada, el archivo de salida contiene los campos TitleOfRespect, FirstName, MiddleName, LastName, EntityType, GenderCode y GenderDeterminationSource.