Definieren eines Aktualisierungsplans für ein Data Warehouse

Sie können Datenflüsse von Spectrum™ Technology Platform planen, die aus der normalisierten Struktur in der Datenquelle Daten extrahieren und in die „Star Schema“-Struktur im Data Warehouse transformieren. Das Planen von Datenflüssen ist nützlich, da die meisten Ladeoperationen Systemressourcen benötigen, die während eines Geschäftstags nicht verfügbar sind.

Berücksichtigen Sie bei einem Aktualisierungsplan Folgendes:

  • Häufigkeit
  • Sequenz
  • Abhängigkeiten

Häufigkeit

Sie sollten die Ausführung von Datenflüssen basierend auf der Granularität der detailliertesten Faktentabelle planen. Beispiel:

  • Wenn die Granularität der Faktentabelle ein Tag ist, planen Sie, den Datenfluss zum Füllen der Faktentabelle täglich auszuführen.
  • Wenn die Granularität ein Monat ist, planen Sie eine monatliche Ausführung des Datenflusses zum Füllen. Planen Sie keine frühere Ausführung, da Benutzer nur mit Daten aus den abgeschlossenen vergangenen Monaten arbeiten.

Die meisten Datenflüsse zum Füllen verarbeiten große Datenmengen, planen Sie daher die Ausführung der Datenflüsse zum Füllen zu Zeiten, wenn der Spectrum™ Technology Platform-Server, die Quelldatenbanken und die Data Warehouse-Datenbanken nur minimal verwendet werden.

Füllen Sie alle Dimensions- und Faktentabellen beim ersten Laden. Aktualisieren Sie die Tabellen nach dem ersten Laden basierend auf hinzugefügten oder geänderten Datensätzen. Im Allgemeinen werden Faktentabellen öfter aktualisiert als Dimensionstabellen. Gründe dafür sind die Folgenden:

  • Dimensionstabellen sind normalerweise statisch, es sei denn, ein Attribut wird in der Quelle geändert oder hinzugefügt.
  • Faktentabellendaten in einer Datenbank zur Unterstützung der Entscheidungsfindung sind typischerweise historisch und erfordern regelmäßige Aktualisierungen, um aktuell zu bleiben. Das erste Laden und die meisten inkrementellen Ladevorgänge betreffen Faktentabellen.

Sequenz

Es bestehen Abhängigkeiten zwischen Daten in Data Warehouse-Datenbanken. Bestimmen Sie daher die Reihenfolge, in der die Datenflüsse zum Füllen laufen müssen, bevor Sie den Ausführungszeitplan erstellen.

Füllen Sie Dimensionstabellen vor Faktentabellen, da jeder Datensatz und Schlüssel einer Dimensionstabelle vorhanden sein muss, bevor eine diesbezügliche Faktentabelle gefüllt werden kann. Diese Einschränkung beruht auf der Beziehung Primärschlüssel/Fremdschlüssel zwischen Dimensions- und Faktentabellen in einem „Star Schema“.

Aktualisieren Sie Basistabellen, bevor Sie Aggregattabellen in Ihrer Datenbank zur Unterstützung der Entscheidungsfindung füllen. Diese Reihenfolge gewährleistet, dass Basistabellen und Aggregattabellen synchron bleiben.

Die korrekte Reihenfolge zum Ausführen von Datenflüssen zum Füllen ist wie folgt:

  1. Basisdimensionstabellen
  2. Basisfaktentabellen
  3. Aggregatdimensionstabellen
  4. Aggregatfaktentabellen

Abhängigkeiten

Sie können Datenflussabhängigkeiten erstellen, wenn mehrere Datenflüsse zum Füllen in einer bestimmten Reihenfolge ausgeführt werden müssen oder wenn die Dauer der Ausführung der Datenflüsse nicht vorhersagbar ist. Ein Datenfluss wird nur ausgeführt, wenn bestimmte Voraussetzungen erfüllt werden. Dazu können der Abschluss oder das Fehlschlagen der vorherigen Datenflussausführung gehören.

Um Datenflussabhängigkeiten zu erstellen, erstellen Sie einen Prozessfluss im Enterprise Designer. Weitere Informationen zu Prozessflüssen finden Sie im Datenfluss-Designer-Handbuch.