Big Data Quality SDK
Instalación automatizada de Acushare
El proceso para instalar Acushare en cada nodo de un clúster, necesario para ejecutar trabajos Validate Address, se automatizó en esta versión. Ahora solo tiene que ejecutar el archivo de secuencia de comandos sdkrts.bin provisto en cada nodo para instalar e iniciar el servicio de forma automática en el nodo.
Informes CASS para Validate Address
Ahora puede crear y ejecutar un trabajo Validate Address en el modo CASS Certified mediante Big Data Quality SDK. Además, puede generar los siguientes informes CASS:
- Informe CASS 3553
- Informe CASS detallado
También puede generar un informe resumido denominado Informe resumido Validate Address.
Ejecutar trabajos usando archivos de configuración
Ahora puede ejecutar un trabajo Big Data Quality usando un archivo JAR del módulo en la consola. Use los comandoshadoop
o spark-submit
y pase los archivos de configuración como argumentos.
Los archivos de configuración deben estar en formato XML. Existen archivos de configuración de muestra en:
BigDataQualityBundle\samples\configuration
Los archivos de configuración incluyen propiedades de archivo de entrada, propiedades de configuración de MapReduce y Spark, configuraciones del directorio de salida y propiedades generales para el trabajo.
Nueva configuración de archivos de entrada
Calificador de texto
Big Data Quality SDK ahora le permite especificar calificadores de texto en la configuración de entrada de trabajos de Spark y MapReduce. Los calificadores de texto identifican los valores del texto en la entrada.
Asignaciones de campos
Un campo nuevo en la clase JobPath le permite especificar la creación de mapas entre los nombres de la columna de origen y los nombres de la columna de salida. El campo toma un Map
de pares de valor/clave para asignar los nombres de las columnas de origen a los nombres de las columnas de salida correspondientes.
Separador de campo para archivos de salida
Ahora se puede especificar el separador de campo cuando se definen los detalles del archivo de salida de un trabajo.
Compatibilidad para formato de archivo ORC
Los formatos de archivo ORC ahora son compatibles para la entrada y salida de trabajos suministrados en Big Data Quality SDK. Para los archivos candidatos, sospechosos, de entrada y de salida, puede utilizar archivos de texto u ORC.