Uso de un trabajo MapReduce de Table Lookup

  1. Cree una instancia de DataNormalizationFactory con su método estático getInstance().
  2. Proporcione los detalles de entrada y salida del trabajo Table Lookup mediante la creación de una instancia de TableLookupDetail que especifique el ProcessType. La instancia debe usar el tipo MRProcessType.
    1. Configure las reglas de Table Lookup mediante la creación de una instancia deTableLookupConfiguration. Dentro de esta instancia:
      Agregue una instancia de tipo AbstractTableLookupRule. Esta instancia AbstractTableLookupRule debe definirse con el uso de una de estas clases: Standardize,Categorize o Identify, que corresponde a la categoría de regla deseada de Table Lookup.
    2. Establezca los detalles de la ruta de los datos de referencia y el tipo de ubicación creando una instancia de ReferenceDataPath. Consulte Enum ReferenceDataPathLocation.
    3. Cree una instancia de TableLookupDetail, mediante el paso de una instancia de tipo JobConfig y la TableLookupConfiguration y las instanciasReferenceDataPath creadas con anterioridad como los argumentos para su constructor.
      El parámetro JobConfig debe ser una instancia de tipo MRJobConfig.
    4. Establezca los detalles del archivo de entrada mediante el campo inputPath de la instancia TableLookupDetail.
      Para un archivo de entrada de texto, cree una instancia de FilePath con los detalles relevantes del archivo de entrada mediante la invocación del constructor apropiado. Para un archivo de entrada ORC, cree una instancia de OrcFilePath con la ruta del archivo de entrada ORC como argumento.
    5. Establezca los detalles del archivo de salida mediante el campo outputPath de la instancia TableLookupDetail.
      Para un archivo de salida de texto, cree una instancia de FilePath con los detalles relevantes del archivo de salida mediante la invocación del constructor apropiado. Para un archivo de salida ORC, cree una instancia de OrcFilePath con la ruta del archivo de salida ORC como argumento.
    6. Establezca el nombre del trabajo mediante el campo jobName de la instancia TableLookupDetail.
    7. Establezca la bandera compressOutput de la instancia TableLookupDetail en verdadero para comprimir la salida del trabajo.
  3. Para crear un trabajo MapReduce, utilice la instancia anteriormente creada de DataNormalizationFactory para invocar el métodocreateJob(). Aquí, pase la instancia anterior de TableLookupDetail como un argumento.
    El método createJob() devuelve una List de instancias de ControlledJob.
  4. Ejecute el trabajo creado con el uso de una instancia de JobControl.
  5. Para mostrar que los contadores de informes publican una ejecución de trabajo MapReduce exitosa, use la instancia creada anteriormente DataNormalizationFactory para invocar su método getCounters(), mediante el paso de un trabajo creado como un argumento.