Verteilte Verarbeitung

Wenn Sie über einen sehr komplexen Auftrag verfügen oder sehr große Datasets mit Millionen von Datensätzen verarbeiten müssen, können Sie die Datenflussleistung verbessern, indem Sie die Verarbeitung des Datenflusses auf mehrere Instanzen des Spectrum™ Technology Platform-Servers auf einem oder mehreren physischen Servern verteilen.

Die skalierbarste Lösung für eine verteilte Verarbeitung ist die Installation von Spectrum™ Technology Platform in einem Cluster. Anweisungen für die Installation und Konfiguration eines Clusters finden Sie im Installationshandbuch.
Anmerkung: Während es ebenfalls möglich ist, die verteilte Verarbeitung auf einem einzelnen Spectrum™ Technology Platform-Server auszuführen, beschreiben die folgenden Informationen die verteilte Verarbeitung in einem Cluster. Wenn Sie einen einzelnen Server verwenden, wird die verteilte Unterflussverarbeitung in Mikrobatches aufgeteilt, die nacheinander auf einem Server anstatt durch das Cluster verarbeitet werden.

Sobald Ihre Cluster-Umgebung eingerichtet ist, können Sie die verteilte Verarbeitung in einem Datenfluss erstellen, indem Sie Unterflüsse für die Teile des Datenflusses erstellen, die Sie auf mehrere Server verteilen möchten. Spectrum™ Technology Platform verwaltet automatisch die Verarbeitungsverteilung, nachdem Sie nur wenige Konfigurationsoptionen für den Unterfluss festlegen.

Das folgende Diagramm zeigt die verteilte Verarbeitung:



Beim Einlesen von Datensätzen in den Unterfluss werden die Daten in Batches gruppiert. Diese Batches werden anschließend in das Cluster geschrieben und automatisch auf einen Knoten im Cluster verteilt, der das Batch verarbeitet. Diese Verarbeitung wird als Mikrofluss bezeichnet. Ein Unterfluss kann konfiguriert werden, um mehrere, gleichzeitig zu verarbeitende Mikroflüsse zuzulassen, die potenziell die Leistung des Datenflusses verbessern. Wenn die verteilte Instanz die Verarbeitung eines Mikroflusses abgeschlossen hat, schickt sie die Ausgabe zurück in den übergeordneten Datenfluss.

Je mehr Spectrum™ Technology Platform-Knoten Sie haben, desto mehr Mikroflüsse können gleichzeitig verarbeitet werden. Dadurch können Sie Ihre Umgebung nach Bedarf skalieren, um die erforderliche Leistung zu erhalten.

Nach der Einrichtung ist eine Cluster-Umgebung einfach zu pflegen, da alle Knoten im Cluster automatisch ihre Konfiguration synchronisieren. Das bedeutet, dass die von Ihnen über die Management Console angewendeten Einstellungen und die im Enterprise Designer erstellten Datenflüsse automatisch für alle Instanzen verfügbar sind.