Utilisation d'un job Advanced Transformer Spark

Créez une instance de DataNormalizationFactory à l'aide de sa méthode statique getInstance().

Fournissez les détails d'entrée et de sortie du job Advanced Transformer en créant une instance de AdvancedTransformerDetail définissant ProcessType. L’instance doit utiliser le type SparkProcessType.

Configurez les règles Advanced Transformer en créant une instance deAdvancedTransformerConfiguration. Dans cette instance :
Ajoutez une instance de type AbstractAdvancedTransformerRules. Cette instance AbstractAdvancedTransformerRules doit être définie à l’aide de l'une des classes suivantes : TableDataExtraction ou RegularExpressionExtraction, correspondant à la catégorie de règle Advanced Transformer de votre choix.
Définissez les détails du type d'emplacement et du chemin d'accès des données de référence en créant une instance de ReferenceDataPath. Reportez-vous à la section Énumération ReferenceDataPathLocation.
Créez une instance de AdvancedTransformerDetail en transmettant une instance de type JobConfig et les instances AdvancedTransformerConfiguration et ReferenceDataPath créées précédemment comme arguments à son constructeur.
Le paramètre JobConfig doit être une instance de type SparkJobConfig.
Définissez les détails du fichier d'entrée à l'aide du champ inputPath de l'instance AdvancedTransformerDetail.
Pour un fichier d'entrée texte, créez une instance de FilePath avec les détails pertinents du fichier d'entrée en appelant le constructeur approprié. Pour un fichier d'entrée ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier d'entrée ORC comme argument.
Définissez les détails du fichier de sortie à l'aide du champ outputPath de l'instance AdvancedTransformerDetail.
Pour un fichier de sortie texte, créez une instance de FilePath avec les détails pertinents du fichier de sortie en appelant le constructeur approprié. Pour un fichier de sortie ORC, créez une instance de OrcFilePath avec le chemin d’accès au fichier de sortie ORC comme argument.
Définissez le nom du job à l'aide du champ jobName de l'instance AdvancedTransformerDetail.

Pour créer et exécuter le job Spark, utilisez l'instance de DataNormalizationFactory précédemment créée pour appeler sa méthode runSparkJob(). Dans ce cas, transmettez l'instance ci-dessus de AdvancedTransformerDetail comme argument.

La méthode runSparkJob() exécute le job et renvoie une Map des compteurs de reporting du job.

Affichez les compteurs pour voir les statistiques de reporting du job.