Utilisation d'un job Interflow Match MapReduce

  1. Créez une instance de AdvanceMatchFactory à l'aide de sa méthode statique getInstance().
  2. Fournissez les détails d'entrée et de sortie du job Interflow Match en créant une instance de InterMatchDetail définissant ProcessType. L’instance doit utiliser le type MRProcessType.
    1. Spécifiez la colonne à l'aide de laquelle les enregistrements doivent être regroupés en créant une instance de GroupbyOption.
      Utilisez une instance de GroupbyMROption pour spécifier la colonne Group-By et le nombre de réducteurs requis.
    2. Générez les règles de correspondance du job en créant une instance de MatchRule.
    3. Créez une instance de InterMatchDetail en transmettant une instance de type JobConfig, l'instance GroupbyOption créée et l'instance MatchRule créée ci-dessus comme arguments à son constructeur.
      Le paramètre JobConfig doit être une instance de type MRJobConfig.
    4. Définissez les détails du fichier de candidats à l'aide du champ candidateFilePath de l'instance InterMatchDetail.
      Pour un fichier candidat texte, créez une instance de FilePath avec les détails pertinents du fichier candidat en appelant le constructeur approprié. Pour un fichier candidat ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier candidat ORC comme argument.
    5. Définissez les détails du fichier de suspects à l'aide du champ suspectFilePath de l'instance InterMatchDetail.
      Pour un fichier suspect texte, créez une instance de FilePath avec les détails pertinents du fichier suspect en appelant le constructeur approprié. Pour un fichier suspect ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier suspect ORC comme argument.
      Important : Les fichiers suspects et candidats doivent se présenter au même format. Soit les deux doivent être des fichiers texte, soit ils doivent être des fichiers de format ORC.
    6. Définissez les détails du fichier de sortie à l'aide du champ outputPath de l'instance InterMatchDetail.
      Pour un fichier de sortie texte, créez une instance de FilePath avec les détails pertinents du fichier de sortie en appelant le constructeur approprié. Pour un fichier de sortie ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier de sortie ORC comme argument.
    7. Définissez le nom du job à l'aide du champ jobName de l'instance InterMatchDetail.
    8. Définissez la colonne Express Match à l'aide du champ expressMatchColumn de l'instance InterMatchDetail, si nécessaire.
    9. Définissez l'indicateur collectionNumberZerotoUniqueRecords de l'instance InterMatchDetail sur true pour affecter le numéro de collection 0 (zéro) à un enregistrement unique. La valeur par défaut est true.
      Si vous ne souhaitez pas affecter le numéro de collection zéro à des enregistrements uniques, définissez cet indicateur sur false.
    10. Définissez l'option de comparaison à l'aide du champ comparisonOption de l'instance InterMatchDetail. Dans ce champ, définissez la valeur requise en utilisant la classe InterMatchComparisonOption pour sélectionner l’une des deux options :
      • Compare the Suspect record to all Candidate records : Spécifiez si des enregistrements uniques doivent être renvoyés ou non dans la sortie.
      • Compare the Suspect record to the selected Candidate record only : Spécifiez le nombre maximal d'enregistrements doublons à rechercher et renvoyer.
    11. Définissez l'indicateur compressOutput de l'instance InterMatchDetail sur true pour compresser la sortie du job.
    12. Si les données d'entrée n'ont pas de clés de correspondance, vous devez spécifier les paramètres de clé de correspondance pour exécuter tout d'abord le job Match Key Generator pour générer des clés de correspondance, avant de pouvoir exécuter le job Interflow Match.
      Pour générer les clés de correspondance pour les données d'entrée, spécifiez les paramètres de clé de correspondance en créant et en configurant une instance deMatchKeySettings pour générer une clé de correspondance avant d'effectuer la correspondance Interflow. Définissez cette instance à l'aide du champ matchKeySettings de l'instance InterMatchDetail.
      Remarque : Pour savoir comment définir les paramètres de clé de correspondance, consultez les exemples de code.
  3. Pour créer un job MapReduce, utilisez l'instance de AdvanceMatchFactory précédemment créée pour appeler sa méthode createJob(). Dans ce cas, transmettez l'instance ci-dessus de InterMatchDetail comme argument.
    La méthode createJob() crée le job et renvoie une List d’instances de ControlledJob.
  4. Exécutez le job créé à l’aide d’une instance de JobControl.
  5. Pour afficher les compteurs de reporting suite à l'exécution correcte d'un job MapReduce, utilisez l'instance précédemment créée AdvanceMatchFactory pour appeler sa méthode getCounters(), en transmettant le job créé comme argument.