Uso de un trabajo Spark de Advanced Transformer

  1. Cree una instancia de DataNormalizationFactory con su método estático getInstance().
  2. Proporcione los detalles de entrada y salida del trabajo Advanced Transformer mediante la creación de una instancia de AdvancedTransformerDetail que especifique el ProcessType. La instancia debe usar el tipo SparkProcessType.
    1. Configure las reglas de Advanced Transformer mediante la creación de una instancia deAdvancedTransformerConfiguration. Dentro de esta instancia:
      Agregue una instancia de tipoAbstractAdvancedTransformerRules. Esta instanciaAbstractAdvancedTransformerRules debe definirse con el uso de una de estas clases: TableDataExtraction o RegularExpressionExtraction, que corresponde a la categoría de regla deseada de Advanced Transformer.
    2. Establezca los detalles de la ruta de los datos de referencia y el tipo de ubicación creando una instancia de ReferenceDataPath. Consulte Enum ReferenceDataPathLocation.
    3. Cree una instancia de AdvancedTransformerDetail, mediante el paso de una instancia de tipo JobConfig y laAdvancedTransformerConfiguration y las instanciasReferenceDataPath creadas con anterioridad como los argumentos para su constructor.
      El parámetro JobConfig debe ser una instancia de tipo SparkJobConfig.
    4. Establezca los detalles del archivo de entrada mediante el campo inputPath de la instancia AdvancedTransformerDetail.
      Para un archivo de entrada de texto, cree una instancia de FilePath con los detalles relevantes del archivo de entrada mediante la invocación del constructor apropiado. Para un archivo de entrada ORC, cree una instancia de OrcFilePath con la ruta del archivo de entrada ORC como argumento.
    5. Establezca los detalles del archivo de salida mediante el campo outputPath de la instancia AdvancedTransformerDetail.
      Para un archivo de salida de texto, cree una instancia de FilePath con los detalles relevantes del archivo de salida mediante la invocación del constructor apropiado. Para un archivo de salida ORC, cree una instancia de OrcFilePath con la ruta del archivo de salida ORC como argumento.
    6. Establezca el nombre del trabajo mediante el campo jobName de la instancia AdvancedTransformerDetail.
  3. Para crear y ejecutar el trabajo Spark, utilice la instancia anteriormente creada deDataNormalizationFactory para invocar este métodorunSparkJob(). Aquí, pase la instancia anterior de AdvancedTransformerDetail como un argumento.
    El método runSparkJob() ejecuta el trabajo y devuelve unMap de los contadores de informes del trabajo.
  4. Muestre los contadores para ver las estadísticas de generación de informes para el trabajo.