Reglas de generación de perfiles

Las reglas de generación de perfiles ejecutan distintos tipos de análisis en sus datos. Cuando configure un perfil, elija las reglas de generación de perfiles que ejecutan los tipos de análisis de datos que le interesan.

En esta sección se describen las reglas de generación de perfiles compatibles con Metadata Insights.

Análisis de caracteres

Esta regla identifica patrones, secuencias y tipos de caracteres en campos de cadenas. Si activa esta regla, recibirá esta información para los campos de cadenas en sus datos:

  • Frecuencia: las frases más utilizadas en la columna de cadenas seleccionada.
  • Distribución de secuencias: las distintas secuencias identificadas en la columna de cadenas seleccionada y su recuento.
  • Longitudes de cadenas: la distribución de longitudes de cadenas en la columna de cadenas seleccionada.
  • Categorías de caracteres: los tipos de caracteres en la columna seleccionada, como letra, puntuación y número.
  • Patrones de texto: convierte los datos en la columna de cadenas en un patrón y muestra el patrón, su recuento y la incidencia porcentual. El patrón se determina usando esta regla:
    • Los caracteres latinos en mayúsculas se reemplazan por una "A"
    • Los caracteres latinos en minúsculas se reemplazan por una "a"
    • Los dígitos se reemplazan por un "9"
    • Los caracteres de control se reemplazan por una "ĉ"

Análisis de patrones personalizados

Esta regla identifica cualquier patrón en la columna de cadenas. Puede configurar la cantidad de expresiones regulares que desee para cruzar con sus datos. Para configurar esta regla cuando cree un perfil, haga clic en el ícono Configurar e ingrese estos detalles:

  1. Clave: nombre del patrón que va a identificar
  2. Valor: la expresión regular para el patrón

    Por ejemplo, si desea identificar direcciones de correo electrónico en columnas de cadenas, ingrese la expresión regular ^(.+)@(.+)$ en el campo Valor y el correo electrónico en el campo Clave.

  3. Para agregar otra expresión, haga clic en el ícono Agregar y agregue los detalles del par de valores clave siguiente. Puede agregar la cantidad de expresiones que desee para cruzar con los datos.

Cuando active esta regla, obtendrá la siguiente información:

  • Validez: los valores que coincidieron con al menos uno de los patrones de expresiones regulares en la regla.
  • Distribución de coincidencias de patrón: la distribución de registros que coincidieron con las expresiones regulares.

Análisis de fecha

Esta regla detecta y valida las fechas en las columnas de cadenas. Además, identifica los patrones de fecha en las columnas y su distribución. Este análisis puede ser útil para detectar entradas de fecha en columnas erróneas, por ejemplo, en datos de correo electrónico.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña Resumen de fechas adicional para las columnas de cadenas que tienen fechas. Esta pestaña muestra los siguientes detalles:

  • Validez: los valores válidos y no válidos.
  • Patrones de fecha: los patrones de fecha detectados en las columnas seleccionadas, su recuento total y el porcentaje de ese patrón en el conjunto de datos.

Análisis de correo electrónico

Esta regla detecta y valida las direcciones de correo electrónico y determina la distribución de dominios de correo electrónico en la columna de datos seleccionada.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña Resumen de correos electrónicos adicional que, a su vez, muestra los siguientes detalles:

  • Validez: los valores válidos y no válidos.
  • Distribución de dominio: los diez principales dominios de correo electrónico en la columna de datos seleccionada.

Análisis de números de teléfono

Seleccione esta regla para detectar y validar números de teléfono e identificar números de teléfono como números de línea fija, números de teléfonos móviles o cualquier otro tipo de número. Esta regla además proporciona la distribución de los números de teléfono por país y región. Debe configurar esta regla para definir el país predeterminado que usará cuando un número de teléfono no tenga un código de país.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña Resumen de números de teléfono adicional que, a su vez, muestra los detalles siguientes:

  • Validez: los números de teléfono válidos y no válidos.
  • Tipos de números de teléfono: los tipos números de teléfono, como móviles, línea terrestre, línea fija, VOIP, buscapersonas, correo de voz o número gratuito.
  • Números de teléfono por país: la distribución por país de los números de teléfono detectados.
  • Números de teléfono por región: la distribución por región de los números de teléfono detectados.

Análisis de tarjetas de crédito

Seleccione esta regla para detectar y validar números de tarjetas de crédito e identificar números de tarjetas de crédito como JCB, VISA, Diners Club (DINERS), MasterCard, Discover o American Express (AMEX).

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña adicional Resumen de tarjetas de crédito que, a su vez, muestra los siguientes detalles:
  • Validez: los números de tarjetas de crédito válidos y no válidos.
  • Distribución de tarjetas de crédito: distribución por categorías de las tarjetas de crédito detectadas.

Análisis del número de identificación vehicular (VIN, por sus siglas en inglés)

Seleccione esta regla para detectar y validar los números de identificación vehicular. Esta regla además proporciona la distribución de los números de identificación vehicular por país y región.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña adicional de Resumen de VIN que, a su vez, muestra los siguientes detalles:
  • Validez: los números de identificación vehicular válidos y no válidos.
  • Distribución por país de VIN: distribución por país de los números de identificación de vehículos detectados.

Análisis de números de seguridad social (SSN, por sus siglas en inglés)

Seleccione esta regla para detectar y validar los números de seguridad social.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña adicional de Resumen de números de SS que, a su vez, muestra los números de seguridad social válidos y no válidos.

Análisis de números de cuenta de banco internacional (IBAN, por sus siglas en inglés)

Seleccione esta regla para detectar y validar números de cuenta de banco internacional. Esta regla además proporciona la distribución de los números de cuenta de banco internacional por país y región.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña adicional de Resumen de IBAN que, a su vez, muestra los siguientes detalles:
  • Validez: los números de cuenta de banco internacional válidos y no válidos.
  • Distribución por país de IBAN: distribución por país de los números cuenta de banco internacional detectados.

Análisis de semántica

Seleccione esta regla para detectar tipos de semántica, como nombre, ciudad, país, código de país ISO 2 y 3, apellido (apellido familiar) y estados. Esta regla puede ayudarlo a encontrar valores en columnas incorrectas, como nombres de ciudad en una columna País.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña Tipo de semántica adicional que, a su vez, muestra los tipos de semántica detectados y su frecuencia.

Bases de datos Análisis de direcciones

Esta regla determina la calidad de sus datos de dirección usando la base de datos de Estados Unidos del módulo Universal Addressing. Para ejecutar esta regla, debe hacer lo siguiente:
  • Instalar la base de datos de Estados Unidos del módulo Universal Addressing y definirla como un recurso en Management Console. Para obtener más información sobre la adición de este recurso de base de datos, consulte la Guía de administración.
  • Configure la regla Análisis de direcciones de Estados Unidos haciendo clic en el botón Configurar e ingresando la siguiente información:
    1. Base de datos de codificadores de direcciones de Estados Unidos: seleccione el recurso de base de datos del módulo Universal Addressing configurado en Management Console.
    2. Campo AddressLine1 al campo AddressLine5: asigne estos campos a las columnas de la tabla que está analizando. No debe ingresar necesariamente nombres de columna en todos los campos. Sin embargo, mientras más específico sea, mejor será la puntuación de cruce.
    3. Asigne las columnas de su tabla a los campos Ciudad, País, USUrbanName, campo FirmName, PostalCode y StateProvince.

Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra la pestaña Resumen de direcciones.

  • La leyenda debajo de la tabla muestra la puntuación de cruce para los datos, junto con la codificación de color.
  • Apunte a cualquier lugar en el área del gráfico para ver la puntuación de cruce. Las puntuaciones tienen los rangos (0, 1-25, 26-50, 51-80, 81-99 y 100), y cero significa que no hay cruces de los datos con la base de datos. El gráfico también muestra el porcentaje de registros coincidentes detectados (con código de color).
  • Haga clic en el área del gráfico para ver los datos coincidentes o no coincidentes con la base de datos.

Análisis de direcciones internacionales

Esta regla determina la calidad de sus datos de dirección usando la base de datos del módulo Global Address Validation. Para ejecutar esta regla, debe hacer lo siguiente:
  • Instale la base de datos de Global Address Validation y defínala como un recurso en Management Console. Para obtener más información, consulte la Guía de administración.
  • Configure la regla Análisis de direcciones internacionales haciendo clic en el botón Configurar e ingresando la siguiente información:
    1. Base de datos de motor de direccionamiento: seleccione el recurso de base de datos de Global Address Validation configurado en Management Console.
    2. Campo AddressLine1 y campo País: asigne estos campos a las columnas en la tabla que está analizando.
    3. Asigne las columnas de su tabla a los campos LastLine, Ciudad, CitySubdivision, PostalCode, Estado , StateSubdivision y FirmName. No debe ingresar necesariamente nombres de columna en todos los campos. Sin embargo, mientras más específico sea, mejor será la puntuación de cruce.
Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra la pestaña Resumen de direcciones que, a su vez, muestra:
  • Distribución de confianza en direcciones internacionales: la puntuación de cruce de los datos. La puntuación se codifica con color. Apunte a cualquier área del gráfico circular para ver el rango de puntuación (0, 1-25, 26-50, 51-80, 81-99 y 100), donde cero significa que no hubo coincidencias con los datos en la base de datos. Haga clic en el área del gráfico para obtener una vista previa de los datos coincidentes o no coincidentes.
  • Precisión de direcciones internacionales: esta distribución de niveles de validación de direcciones, como estado, casa, código postal, ciudad, subdivisión de ciudad y calle.