Utilisation d'un job Intraflow Match MapReduce
-
Créez une instance de
AdvanceMatchFactory
à l'aide de sa méthode statiquegetInstance()
. -
Fournissez les détails d'entrée et de sortie du job Intraflow Match en créant une instance de
IntraMatchDetail
définissantProcessType
. L’instance doit utiliser le type MRProcessType.-
Spécifiez la colonne à l'aide de laquelle les enregistrements doivent être regroupés en créant une instance de
GroupbyOption
.Utilisez une instance de GroupbyMROption pour spécifier la colonne Group-By et le nombre de réducteurs requis. -
Générez les règles de correspondance du job en créant une instance de
MatchRule
. -
Créez une instance de
IntraMatchDetail
en transmettant une instance de typeJobConfig
, l'instanceGroupbyOption
créée et l'instanceMatchRule
créée ci-dessus comme arguments à son constructeur.Le paramètreJobConfig
doit être une instance de type MRJobConfig. -
Définissez les détails du fichier d'entrée à l'aide du champ
inputPath
de l'instanceIntraMatchDetail
.Pour un fichier d'entrée texte, créez une instance deFilePath
avec les détails pertinents du fichier d'entrée en appelant le constructeur approprié. Pour un fichier d'entrée ORC, créez une instance deOrcFilePath
avec le chemin d’accès au fichier d'entrée ORC comme argument. -
Définissez les détails du fichier de sortie à l'aide du champ
outputPath
de l'instanceIntraMatchDetail
.Pour un fichier de sortie texte, créez une instance deFilePath
avec les détails pertinents du fichier de sortie en appelant le constructeur approprié. Pour un fichier de sortie ORC, créez une instance deOrcFilePath
avec le chemin d’accès au fichier de sortie ORC comme argument. -
Définissez le nom du job à l'aide du champ
jobName
de l'instanceIntraMatchDetail
. -
Définissez la colonne Express Match à l'aide du champ
expressMatchColumn
de l'instanceIntraMatchDetail
, si nécessaire. -
Définissez l'indicateur
collectionNumberZerotoUniqueRecords
de l'instanceIntraMatchDetail
sur true pour affecter le numéro de collection 0 (zéro) à un enregistrement unique. La valeur par défaut est true.Si vous ne souhaitez pas affecter le numéro de collection zéro à des enregistrements uniques, définissez cet indicateur sur false. -
Définissez l'indicateur
compressOutput
de l'instanceIntraMatchDetail
sur true pour compresser la sortie du job. -
Si les données d'entrée n'ont pas de clés de correspondance, vous devez spécifier les paramètres de clé de correspondance pour exécuter tout d'abord le job Match Key Generator pour générer des clés de correspondance, avant de pouvoir exécuter le job Intraflow Match.
Pour générer les clés de correspondance pour les données d'entrée, spécifiez les paramètres de clé de correspondance en créant et en configurant une instance de
MatchKeySettings
pour générer une clé de correspondance avant d'effectuer la correspondance Intraflow. Définissez cette instance à l'aide du champmatchKeySettings
de l'instanceIntraMatchDetail
.Remarque : Pour savoir comment définir les paramètres de clé de correspondance, consultez les exemples de code.
-
Spécifiez la colonne à l'aide de laquelle les enregistrements doivent être regroupés en créant une instance de
-
Pour créer un job MapReduce, utilisez l'instance de
AdvanceMatchFactory
précédemment créée pour appeler sa méthodecreateJob()
. Dans ce cas, transmettez l'instance ci-dessus deIntraMatchDetail
comme argument.La méthodecreateJob()
crée le job et renvoie uneList
d’instances deControlledJob
. -
Exécutez le job créé à l’aide d’une instance de
JobControl
. -
Pour afficher les compteurs de reporting suite à l'exécution correcte d'un job MapReduce, utilisez l'instance précédemment créée
AdvanceMatchFactory
pour appeler sa méthodegetCounters()
, en transmettant le job créé comme argument.