Utilisation d'un job Intraflow Match Spark

  1. Créez une instance de AdvanceMatchFactory à l'aide de sa méthode statique getInstance().
  2. Fournissez les détails d'entrée et de sortie du job Intraflow Match en créant une instance de IntraMatchDetail définissant ProcessType. L’instance doit utiliser le type SparkProcessType.
    1. Spécifiez la colonne à l'aide de laquelle les enregistrements doivent être regroupés en créant une instance de GroupbyOption.
      Utiliser une instance de GroupbySparkOption pour spécifier la colonne Group-By.
    2. Générez les règles de correspondance du job en créant une instance de MatchRule.
    3. Créez une instance de IntraMatchDetail en transmettant une instance de type JobConfig, l'instance GroupbyOption créée et l'instance MatchRule créée ci-dessus comme arguments à son constructeur.
      Le paramètre JobConfig doit être une instance de type SparkJobConfig.
    4. Définissez les détails du fichier d'entrée à l'aide du champ inputPath de l'instance IntraMatchDetail.
      Pour un fichier d'entrée texte, créez une instance de FilePath avec les détails pertinents du fichier d'entrée en appelant le constructeur approprié. Pour un fichier d'entrée ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier d'entrée ORC comme argument.
    5. Définissez les détails du fichier de sortie à l'aide du champ outputPath de l'instance IntraMatchDetail.
      Pour un fichier de sortie texte, créez une instance de FilePath avec les détails pertinents du fichier de sortie en appelant le constructeur approprié. Pour un fichier de sortie ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier de sortie ORC comme argument.
    6. Définissez le nom du job à l'aide du champ jobName de l'instance IntraMatchDetail.
    7. Définissez la colonne Express Match à l'aide du champ expressMatchColumn de l'instance IntraMatchDetail, si nécessaire.
    8. Définissez l'indicateur collectionNumberZerotoUniqueRecords de l'instance IntraMatchDetail sur true pour affecter le numéro de collection 0 (zéro) à un enregistrement unique. La valeur par défaut est true.
      Si vous ne souhaitez pas affecter le numéro de collection zéro à des enregistrements uniques, définissez cet indicateur sur false.
    9. Définissez l'indicateur compressOutput de l'instance IntraMatchDetail sur true pour compresser la sortie du job.
    10. Si les données d'entrée n'ont pas de clés de correspondance, vous devez spécifier les paramètres de clé de correspondance pour exécuter tout d'abord le job Match Key Generator pour générer des clés de correspondance, avant de pouvoir exécuter le job Intraflow Match.
      Pour générer les clés de correspondance pour les données d'entrée, spécifiez les paramètres de clé de correspondance en créant et en configurant une instance deMatchKeySettings pour générer une clé de correspondance avant d'effectuer la correspondance Intraflow. Définissez cette instance à l'aide du champ matchKeySettings de l'instance IntraMatchDetail.
      Remarque : Pour savoir comment définir les paramètres de clé de correspondance, consultez les exemples de code.
  3. Pour créer et exécuter le job Spark, utilisez l'instance de AdvanceMatchFactory précédemment créée pour appeler sa méthode runSparkJob(). Dans ce cas, transmettez l'instance ci-dessus de IntraMatchDetail comme argument.
    La méthode runSparkJob() exécute le job et renvoie une Map des compteurs de reporting du job.
  4. Affichez les compteurs pour voir les statistiques de reporting du job.