Flux de travail

Pour utiliser le SDK, les composants nécessaires sont les suivants :
Installation SDK qualité des Big Data
Le fichier JAR SDK qualité des Big Data doit être installé sur votre système et disponible pour être utilisé par votre application.
Application client
L'application Java que vous devez créer pour appeler et exécuter les opérations de qualité des données requises à l'aide du SDK. Le fichier JAR SDK qualité des Big Data doit être importé dans votre application Java.
Plate-forme Hadoop
Lors de l'exécution d'un job à l'aide de SDK qualité des Big Data, les données sont tout d'abord lues à partir de la plate-forme Hadoop configurée et selon le traitement approprié, les données de sortie sont écrites dans la plate-forme Hadoop.

Pour ce faire, les détails d'accès de la plate-forme Hadoop doivent être configurés correctement sur votre machine. Pour plus d'informations, reportez-vous à la section Résumé.

Données de référence
Les données de référence, requises par SDK qualité des Big Data, sont placées sur le cluster Hadoop.
API Java
Pour utiliser l'API Java, vous pouvez choisir de placer les données de référence à l'un des emplacements ci-dessous :
  • Nœuds de données locaux : les données de référence sont placées sur tous les nœuds de données disponibles dans le cluster.
    Remarque : Il ne s'agit pas d'une méthode infaillible.
  • Hadoop Distributed File System (HDFS): Les données de références sont placées dans un répertoire HDFS. Ceci garantit que vos données sont parfaitement sécurisées.
Fonctions définies par l'utilisateur (UDF) Hive
Pour utiliser les UDF Hive, vous devez placer les données de référence sur chaque nœud de données local du cluster.
Remarque : Le SDK permet également une mise en cache distribuée pour améliorer les performances.