SDK Qualité des Big Data
Installation automatique d'Acushare
Dans cette version, la procédure d’installation d'Acushare sur chaque nœud d'un cluster, nécessaire pour exécuter des jobs Validate Address, a été automatisée. Désormais, il vous suffit d'exécuter le fichier de script sdkrts.bin sur chaque nœud pour installer et démarrer automatiquement le service sur ce nœud.
Rapports CASS pour Validate Address
Vous pouvez maintenant créer et exécuter le job Validate Address en mode certifié CASS à l’aide du SDK Qualité des Big Data. En outre, vous pouvez générer ces rapports CASS :
- Rapport CASS 3553
- Rapport CASS détaillé
Vous pouvez également générer un rapport de synthèse appelé Rapport de synthèse Validate Address.
Exécution de jobs à l’aide de fichiers de configuration
Vous pouvez désormais exécuter un job Qualité des Big Data à l’aide du fichier JAR d’un module dans une console. Utilisez la commande hadoop
ou spark-submit
et transmettez les fichier de configuration comme arguments.
Les fichiers de configuration doivent être au format XML. Il existe des exemples de fichiers de configuration dans :
BigDataQualityBundle\samples\configuration
Les fichiers de configuration incluent les propriétés du fichier d’entrée, les propriétés de configuration MapReduce et Spark, les paramètres du répertoire de sortie et les propriétés générales du job.
Nouveaux paramètres du fichier d'entrée
Qualificateur de texte
Le SDK Qualité des Big Data vous permet désormais de spécifier des qualificateurs de texte dans la configuration d’entrée des jobs MapReduce et Spark. Les qualificateurs de texte identifient les valeurs de texte de l’entrée.
Rapprochements de champs
Un nouveau champ, dans la classe JobPath, vous permet de spécifier le mappage entre les noms des colonnes sources et les noms des colonnes de sortie. Le champ prend une Map
de paires de clé/valeur pour mapper les noms des colonnes sources vers les noms des colonnes de sortie correspondants.
Séparateur de champs pour les fichiers de sortie
Vous pouvez désormais spécifier le séparateur de champs lorsque vous définissez les détails du fichier de sortie d’un job.
Prise en charge du format de fichier ORC
Les formats de fichier ORC sont désormais pris en charge pour l’entrée et la sortie des jobs fournis dans le SDK Qualité des Big Data. Pour les fichiers d'entrée, de sortie, de suspects et de candidats, vous pouvez utiliser des fichiers texte ou ORC.