Uso de un trabajo MapReduce de Duplicate Synchronization
-
Cree una instancia de
AdvanceMatchFactory
con su método estáticogetInstance()
. -
Proporcione los detalles de entrada y salida del trabajo Duplicate Synchronization mediante la creación de una instancia de
DuplicateSyncDetail
que especifique elProcessType
. La instancia debe usar el tipo MRProcessType.-
Especifique la columna con la cual se agruparán los registros creando una instancia de
GroupbyOption
.Utilice una instancia de GroupbyMROption para especificar la columna por grupo y la cantidad de reductores que se necesitan. -
Genere las condiciones de consolidación para el trabajo mediante la creación de una instancia de
DuplicateSynchronizationConfiguration
. Dentro de esta instancia, defina las condiciones de consolidación mediante el uso de las instancias deConsolidationCondition
y la conexión de las condiciones con el uso de operadores lógicos.Cada instancia deConsolidationCondition
se define con el uso de una instanciaConsolidationRule
y su instanciaConsolidationAction
correspondiente.Nota: Cada instancia deConsolidationRule
puede definirse con el uso de una instancia única deSimpleRule
o con el uso de una jerarquía de instancias secundariasSimpleRule
y de instancias anidadasConjoinedRule
unidas con los operadores lógicos. Consulte Enum JoinType y Enum Operation. -
Cree una instancia de
DuplicateSyncDetail
pasando una instancia del tipoJobConfig
, la instanciaGroupbyOption
creada y la instanciaDuplicateSynchronizationConfiguration
creada anteriormente como los argumentos para su constructor.El parámetroJobConfig
debe ser una instancia de tipo MRJobConfig. -
Establezca los detalles del archivo de entrada mediante el campo
inputPath
de la instanciaDuplicateSyncDetail
.Para un archivo de entrada de texto, cree una instancia deFilePath
con los detalles relevantes del archivo de entrada mediante la invocación del constructor apropiado. Para un archivo de entrada ORC, cree una instancia deOrcFilePath
con la ruta del archivo de entrada ORC como argumento. -
Establezca los detalles del archivo de salida mediante el campo
outputPath
de la instanciaDuplicateSyncDetail
.For a text output file, create an instance ofFilePath
with the relevant details of the output file by invoking the appropriate constructor. For an ORC output file, create an instance ofOrcFilePath
with the path of the ORC output file as the argument. -
Establezca el nombre del trabajo mediante el campo
jobName
de la instanciaDuplicateSyncDetail
. -
Establezca la bandera
compressOutput
de la instanciaDuplicateSyncDetail
en verdadero para comprimir la salida del trabajo.
-
Especifique la columna con la cual se agruparán los registros creando una instancia de
-
Cree el trabajo usando la instancia anteriormente creada de
AdvanceMatchFactory
para invocar su métodocreateJob()
. Aquí, pase la instancia anterior deDuplicateSyncDetail
como un argumento.El métodocreateJob()
devuelve unaList
de instancias deControlledJob
. -
Ejecute el trabajo creado con el uso de una instancia de
JobControl
. -
Para mostrar que los contadores de informes publican una ejecución de trabajo MapReduce exitosa, use la instancia creada anteriormente
AdvanceMatchFactory
para invocar su métodogetCounters()
, mediante el paso de un trabajo creado como un argumento.