Eingabe

Der „Import to Hub“-Schritt erfordert, dass Ihr Datenfluss zwei Kanäle enthält: einen, der Daten für Entitäten zum Entitätsport (den oberen Port) bereitstellt, und einen, der die Daten für Beziehungen zum Beziehungsport (unterer Port) bereitstellt. Diese Anforderung kann von zwei Quellschritten erfüllt werden (die jeweils eine Eingabedatei enthalten). Oder sie könnte aus mehreren Quellschritten stammen, die in „Record Combiners“ einfließen und letztendlich zu zwei Streams werden. Oder sie könnte aus einer Quelldatei stammen, deren Daten einen „Conditional Router“ oder einen Splitter durchlaufen, der die Daten in zwei Datenstreams ausgibt. Es spielt keine Rolle, welche Methode Sie verwenden, solange das Endergebnis ein Kanal für Entitätsdaten und ein Kanal für Beziehungsdaten ist, die in den „Import to Hub“-Schritt einfließen.

Entitätsdaten

Daten für den Entitätsport müssen sowohl Typ- als auch ID-Informationen für Ihre Entitäten enthalten. Sie können ein Typ-Feld („Person“) und ein ID-Feld („Bob“) haben, oder Sie haben nur ein ID-Feld, das sowohl Typ- als auch ID-Informationen getrennt durch einen Doppelpunkt („Person:Bob“) kombiniert. Beispielsweise könnte Ihre Datei wie die folgenden kommagetrennten Daten aussehen. Das Feld „Typ“ gibt an, dass die Entitäten Personen und Orte sind, und das Feld „ID“ enthält die Namen der Personen und Orte.

Alternativ könnte Ihre Eingabedatei ein einzelnes Feld enthalten, das Typ und ID kombiniert:

Anmerkung: Die Felder, die Typ- und ID-Daten enthalten, müssen nicht tatsächlich „Typ“ und „ID“ heißen. Es ist ein beliebiger Feldname zulässig.

Beziehungsdaten

Daten für den Beziehungsport müssen Felder enthalten, die Quelltypen, Quell-IDs, Zieltypen, Ziel-IDs und Beschriftungen identifizieren, die wiederum die Beziehungen zwischen den Quellen und Zielen identifizieren. Beachten Sie, dass alle Quell- und Zielentitätsinformationen auf Entitäten verweisen müssen, die dem Entitätsport bereitgestellt werden. Ihre Beziehungsdaten können auch Eigenschaften über diese Beziehungen enthalten. Beispielsweise könnte Ihre Datei wie die folgenden Daten aussehen. In diesem Fall besagt das Feld „SourceType“, dass alle Quellen Personen sind. Das Feld „TargetType“ gibt an, dass die Ziele Personen und Orte sind. Das Feld „SourceID“ enthält die Namen aller Quellen und das Feld „TargetID“ stellt die Namen der Personen und Orte bereit. Das Feld „Label“ identifiziert die Beziehungen, in diesem Fall „arbeitet mit“, „arbeitet bei“ oder „lebt in“.

Sortierungsanforderungen

Der „Import to Hub“-Schritt erfordert, dass die Eingabedaten in einer bestimmten Weise sortiert werden. Die Entitätseingabedatei muss zuerst aufsteigend nach Typ und anschließend aufsteigend nach ID sortiert werden. Die oben aufgeführten Entitätsdaten enthalten die erforderlichen Felder, sie sind jedoch nicht korrekt sortiert. Damit ein „Import to Hub“-Datenfluss korrekt ausgeführt werden kann, müssten diese Entitätsdaten wie folgt aussehen:
Oder so für kombinierte Felder:
Die Beziehungseingabedatei muss ebenfalls sortiert werden. Wenn Ihre Beziehungsdaten sowohl Typ als auch ID im gleichen Feld enthalten, muss die Eingabedatei in aufsteigender Reihenfolge wie folgt sortiert werden:
  • Quelltyp/ID
  • Zieltyp/ID
  • Beschriftung
  • Eindeutige ID (optional)
Wenn Ihre Beziehungsdaten Typinformationen in einem separaten Feld enthalten, muss die Eingabedatei aufsteigend sortiert werden, wobei die folgenden Felder aufgeschlüsselt sein müssen:
  • Quelltyp
  • Quell-ID
  • Zieltyp
  • Ziel-ID
  • Beschriftung
  • Eindeutige ID (optional)
Wie bei den Entitätsdaten enthalten die oben dargestellten Beziehungsdaten die erforderlichen Felder, sind jedoch nicht korrekt sortiert. Damit ein „Import to Hub“-Datenfluss ordnungsgemäß ausgeführt werden kann, müssen die Beziehungsdaten wie folgt aussehen:
Oder so für kombinierte Felder: