Uso de un trabajo Spark de Best of Breed
-
Cree una instancia de
AdvanceMatchFactory
con su método estáticogetInstance()
. -
Proporcione los detalles de entrada y salida del trabajo Best of Breed mediante la creación de una instancia de
BestofBreedDetail
que especifique elProcessType
. La instancia debe usar el tipo SparkProcessType.-
Especifique la columna con la cual se agruparán los registros creando una instancia de
GroupbyOption
.Utilice una instancia de GroupbySparkOption para especificar la columna por grupo. -
Genere las reglas de la consolidación y la plantilla para el trabajo creando una instancia de
BestOfBreedConfiguration
. Dentro de esta instancia:- Defina el registro de la plantilla para la consolidación mediante el uso de una instancia de
ConsolidationCondition
, que se compone de las instancias deConsolidationRule
. - Defina las condiciones de consolidación mediante el uso de las instancias de
ConsolidationCondition
y la conexión de las condiciones con el uso de operadores lógicos.Cada instancia de
ConsolidationCondition
se define con el uso de una instanciaConsolidationRule
y su instanciaConsolidationAction
correspondiente.
Nota: Cada instancia deConsolidationRule
puede definirse con el uso de una instancia única deSimpleRule
o con el uso de una jerarquía de instancias secundariasSimpleRule
y de instancias anidadasConjoinedRule
unidas con los operadores lógicos. Consulte Enum JoinType y Enum Operation. - Defina el registro de la plantilla para la consolidación mediante el uso de una instancia de
-
Cree una instancia de
BestofBreedDetail
pasando una instancia del tipoJobConfig
, la instanciaGroupbyOption
creada y la instanciaBestOfBreedConfiguration
creada anteriormente como los argumentos para su constructor.El parámetroJobConfig
debe ser una instancia de tipo SparkJobConfig. -
Establezca los detalles del archivo de entrada mediante el campo
inputPath
de la instanciaBestofBreedDetail
.Para un archivo de entrada de texto, cree una instancia deFilePath
con los detalles relevantes del archivo de entrada mediante la invocación del constructor apropiado. Para un archivo de entrada ORC, cree una instancia deOrcFilePath
con la ruta del archivo de entrada ORC como argumento. -
Establezca los detalles del archivo de salida mediante el campo
outputPath
de la instanciaBestofBreedDetail
.Para un archivo de salida de texto, cree una instancia deFilePath
con los detalles relevantes del archivo de salida mediante la invocación del constructor apropiado. Para un archivo de salida ORC, cree una instancia deOrcFilePath
con la ruta del archivo de salida ORC como argumento. -
Establezca el nombre del trabajo mediante el campo
jobName
de la instanciaBestofBreedDetail
. -
Establezca la bandera
compressOutput
de la instanciaBestofBreedDetail
en verdadero para comprimir la salida del trabajo.
-
Especifique la columna con la cual se agruparán los registros creando una instancia de
-
Para crear y ejecutar el trabajo Spark, utilice la instancia anteriormente creada de
AdvanceMatchFactory
para invocar este métodorunSparkJob()
. Aquí, pase la instancia anterior deBestofBreedDetail
como un argumento.El métodorunSparkJob()
ejecuta el trabajo y devuelve unMap
de los contadores de informes del trabajo. - Muestre los contadores para ver las estadísticas de generación de informes para el trabajo.