Utilisation de fichiers de propriétés de configuration

Assurez-vous que SDK qualité des Big Data est installé sur votre ordinateur.
Vous pouvez exécuter un job SDK qualité des Big Data à l’aide des fichiers JAR spécifiques au module et des fichiers de configuration au format XML.

Les exemples de propriétés de configuration sont livrés avec le SDK Qualité des Big Data et placés sous <Big Data Quality bundle>\samples\configuration.

Remarque : Pour obtenir une liste des fichiers JAR propres au module, reportez-vous à la section Composants de l'API Java du SDK.
  1. Pour un système Linux, ouvrez une invite de commande.
    Pour les systèmes Windows et Unix, ouvrez un client SSH tel que Putty.
  2. Pour un job MapReduce, utilisez la commande hadoop.
    Suivant le job que vous souhaitez exécuter :
    1. Transmettez le nom du fichier JAR de ce module.
    2. Transmettez le nom de la classe de pilote RunMRSampleJob.
    3. Transmettez les différents fichiers de configuration sous forme de liste d'arguments. Chaque clé d'argument accepte le chemin d’accès à un seul fichier de propriétés de configuration, où chaque fichier contient plusieurs propriétés de configuration.
    La syntaxe de la commande est la suivante :

    hadoop jar <Name of module JAR file> RunMRSampleJob [-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to MapReduce configuration file>] [-output <Path of output directory>]

    Par exemple, pour un job MapReduce MatchKeyGenerator :

    hadoop jar amm.core.12.0.jar RunMRSampleJob -config /home/hadoop/matchkey/mkgConfig.xml -input /home/hadoop/matchkey/inputFileConfig.xml -conf /home/hadoop/matchkey/mapReduceConfig.xml -output /home/hadoop/matchkey/outputFileConfig.xml
  3. Pour un job Spark, utilisez la commande spark-submit.
    Suivant le job que vous souhaitez exécuter :
    1. Transmettez le nom du fichier JAR de ce module.
    2. Transmettez le nom de la classe de pilote RunSparkSampleJob.
    3. Transmettez les différents fichiers de configuration sous forme de liste d'arguments. Chaque clé d'argument accepte le chemin d’accès à un seul fichier de propriétés de configuration, où chaque fichier contient plusieurs propriétés de configuration.
    La syntaxe de la commande est la suivante :

    spark-submit –-class RunSparkSampleJob <Name of module JAR file> [-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to Spark configuration file>] [-output <Path of output directory>]

    Par exemple, pour un job Spark MatchKeyGenerator :

    spark-submit --class RunSparkSampleJob amm.core.12.0.jar -config /home/hadoop/spark/matchkey/matchKeyGeneratorConfig.xml -input /home/hadoop/spark/matchkey/inputFileConfig.xml -output /home/hadoop/spark/matchkey/outputFileConfig.xml
Remarque : Pour afficher une liste de clés d’argument prises en charge pour les commandes hadoop ouspark-submit, exécutez les commandes :
hadoop --help
ou
spark-submit --help