Uso de un trabajo Spark de Best of Breed

  1. Cree una instancia de AdvanceMatchFactory con su método estático getInstance().
  2. Proporcione los detalles de entrada y salida del trabajo Best of Breed mediante la creación de una instancia de BestofBreedDetail que especifique el ProcessType. La instancia debe usar el tipo SparkProcessType.
    1. Especifique la columna con la cual se agruparán los registros creando una instancia de GroupbyOption.
      Utilice una instancia de GroupbySparkOption para especificar la columna por grupo.
    2. Genere las reglas de la consolidación y la plantilla para el trabajo creando una instancia de BestOfBreedConfiguration. Dentro de esta instancia:
      1. Defina el registro de la plantilla para la consolidación mediante el uso de una instancia de ConsolidationCondition, que se compone de las instancias de ConsolidationRule.
      2. Defina las condiciones de consolidación mediante el uso de las instancias de ConsolidationCondition y la conexión de las condiciones con el uso de operadores lógicos.

        Cada instancia deConsolidationCondition se define con el uso de una instancia ConsolidationRule y su instancia ConsolidationAction correspondiente.

      Nota: Cada instancia deConsolidationRule puede definirse con el uso de una instancia única de SimpleRule o con el uso de una jerarquía de instancias secundarias SimpleRule y de instancias anidadasConjoinedRule unidas con los operadores lógicos. Consulte Enum JoinType y Enum Operation.
    3. Cree una instancia de BestofBreedDetail pasando una instancia del tipo JobConfig, la instancia GroupbyOption creada y la instancia BestOfBreedConfiguration creada anteriormente como los argumentos para su constructor.
      El parámetro JobConfig debe ser una instancia de tipo SparkJobConfig.
    4. Establezca los detalles del archivo de entrada mediante el campo inputPath de la instancia BestofBreedDetail.
      Para un archivo de entrada de texto, cree una instancia de FilePath con los detalles relevantes del archivo de entrada mediante la invocación del constructor apropiado. Para un archivo de entrada ORC, cree una instancia de OrcFilePath con la ruta del archivo de entrada ORC como argumento.
    5. Establezca los detalles del archivo de salida mediante el campo outputPath de la instancia BestofBreedDetail.
      Para un archivo de salida de texto, cree una instancia de FilePath con los detalles relevantes del archivo de salida mediante la invocación del constructor apropiado. Para un archivo de salida ORC, cree una instancia de OrcFilePath con la ruta del archivo de salida ORC como argumento.
    6. Establezca el nombre del trabajo mediante el campo jobName de la instancia BestofBreedDetail.
    7. Establezca la bandera compressOutput de la instancia BestofBreedDetail en verdadero para comprimir la salida del trabajo.
  3. Para crear y ejecutar el trabajo Spark, utilice la instancia anteriormente creada deAdvanceMatchFactory para invocar este métodorunSparkJob(). Aquí, pase la instancia anterior de BestofBreedDetail como un argumento.
    El método runSparkJob() ejecuta el trabajo y devuelve unMap de los contadores de informes del trabajo.
  4. Muestre los contadores para ver las estadísticas de generación de informes para el trabajo.