SDK Qualité des Big Data

Installation automatique d'Acushare

Dans cette version, la procédure d’installation d'Acushare sur chaque nœud d'un cluster, nécessaire pour exécuter des jobs Validate Address, a été automatisée. Désormais, il vous suffit d'exécuter le fichier de script sdkrts.bin sur chaque nœud pour installer et démarrer automatiquement le service sur ce nœud.

Rapports CASS pour Validate Address

Vous pouvez maintenant créer et exécuter le job Validate Address en mode certifié CASS à l’aide du SDK Qualité des Big Data. En outre, vous pouvez générer ces rapports CASS :

Rapport CASS 3553
Rapport CASS détaillé

Vous pouvez également générer un rapport de synthèse appelé Rapport de synthèse Validate Address.

Exécution de jobs à l’aide de fichiers de configuration

Vous pouvez désormais exécuter un job Qualité des Big Data à l’aide du fichier JAR d’un module dans une console. Utilisez la commande hadoop ou spark-submit et transmettez les fichier de configuration comme arguments.

Les fichiers de configuration doivent être au format XML. Il existe des exemples de fichiers de configuration dans :

BigDataQualityBundle\samples\configuration

Les fichiers de configuration incluent les propriétés du fichier d’entrée, les propriétés de configuration MapReduce et Spark, les paramètres du répertoire de sortie et les propriétés générales du job.

Nouveaux paramètres du fichier d'entrée

Qualificateur de texte

Le SDK Qualité des Big Data vous permet désormais de spécifier des qualificateurs de texte dans la configuration d’entrée des jobs MapReduce et Spark. Les qualificateurs de texte identifient les valeurs de texte de l’entrée.

Rapprochements de champs

Un nouveau champ, dans la classe JobPath, vous permet de spécifier le mappage entre les noms des colonnes sources et les noms des colonnes de sortie. Le champ prend une Map de paires de clé/valeur pour mapper les noms des colonnes sources vers les noms des colonnes de sortie correspondants.

Séparateur de champs pour les fichiers de sortie

Vous pouvez désormais spécifier le séparateur de champs lorsque vous définissez les détails du fichier de sortie d’un job.

Prise en charge du format de fichier ORC

Les formats de fichier ORC sont désormais pris en charge pour l’entrée et la sortie des jobs fournis dans le SDK Qualité des Big Data. Pour les fichiers d'entrée, de sortie, de suspects et de candidats, vous pouvez utiliser des fichiers texte ou ORC.

Remarque : En cas d'utilisation d'Interflow Match, les fichiers de suspects et de candidats doivent se présenter au même format. Les deux doivent être soit des fichiers ORC, soit des fichiers texte.