Conception d'un flux de données pour le traitement distribué

Le traitement distribué prend des parties de votre flux de données et distribue le traitement de ces parties auprès d'un cluster de serveurs Spectrum™ Technology Platform. Par exemple, votre flux de données procède peut-être au géocodage et vous souhaitez distribuer le traitement de géocodage entre plusieurs nœuds Spectrum™ Technology Platform d'un cluster afin d'améliorer les performances.

  1. Décidez des stages de votre flux de données que vous souhaitez distribuer, puis créez un sous-flux contenant les stages que vous souhaitez distribuer.

    N'utilisez pas les stages suivants dans un sous-flux à utiliser pour le traitement distribué :

    • Sorter
    • Unique ID Generator
    • Record Joiner
    • Interflow Match

    Les ensembles de stages suivants doivent être utilisés ensemble dans un sous-flux pour le traitement distribué :

    • les stages de correspondance (Intraflow Match et Transactional Match) et les stages de consolidation (Filter, Best of Breed et Duplicate Synchronization).
    • Aggregator et Splitter

    N'incluez par d'autres sous-flux dans le sous-flux (sous-flux imbriqués).

    Prenez en compte les éléments suivants, si vous allez exécuter des opérations de correspondance dans un sous-flux utilisé pour le traitement distribué :

    • Le tri doit être effectué dans le travail et non dans le sous-flux. Vous devez désactiver le tri dans le stage et définir le tri au niveau du travail.
    • L'analyse de correspondance n'est pas prise en charge dans un sous-flux distribué
    • Les numéros de collection seront réutilisés dans un groupe de lots de microflux

    Utiliser un stage Write Exception dans un sous-flux peut produire des résultats inattendus. Ajoutez plutôt ce stage à votre flux de données au niveau du job.

  2. Une fois que vous avez créé votre sous-flux pour la partie du flux de données à distribuer, ajoutez le sous-flux au flux de données parent et reliez-le à un stage ascendant et descendant. Les sous-flux utilisés pour le traitement distribué ne disposent peut-être que d'un port d'entrée.
  3. Faites un clic droit sur le sous-flux, puis sélectionnez Options.
  4. Sélectionnez Distributed.
  5. Saisissez le nombre de micro-flux à envoyer à chaque serveur.
  6. Saisissez le nombre d'enregistrement que doit contenir chaque lot de micro-flux.
  7. Facultatif : (Facultatif) Vérifiez Nom de champ de groupe et sélectionnez le nom du champ suivant lequel les lots de micro-flux doivent être regroupés.

    Si vous fournissez un champ de groupe, la taille de vos lots peut être supérieure au nombre que vous avez indiqué dans le champ Micro flow batch size, car un groupe n'est pas divisé en plusieurs lots. Par exemple, si vous indiquez une taille de lot de 100, mais que vous disposez de 108 enregistrements dans le même groupe, ce lot contiendra 108 enregistrements. De même, si vous indiquez une taille de lot de 100 et qu'un nouveau groupe de 28 enregistrements portant le même ID commence à l'enregistrement 80, vous disposerez de 108 enregistrements dans ce lot.

    L'exemple suivant présente un flux de données, dans lequel un sous-flux nommé My Distributed Subflow a été configuré pour s'exécuter en mode distribué :