Run Hadoop MapReduce Job

Die Aktivität Hadoop-Auftrag MapReduce ausführen ermöglicht es Ihnen, einen MapReduce-Auftrag durch Mapping der relevanten JAR-Datei in einem Hadoop-Cluster auszuführen. Sie können mit dieser Aktivität einen MapReduce-Auftrag des Spectrum Data Quality for Big Data SDK oder einen externen MapReduce-Auftrag ausführen.

Anmerkung: Wenn der MapReduce-Auftrag fehlschlägt, wird eine Fehlermeldung zusammen mit dem Status des ausgeführten Auftrags angezeigt.
Feld Beschreibung
Hadoop-Server Die Liste der konfigurierten Hadoop-Server.

Informationen zum Mapping von HDFS-Dateiservern über die Management Console finden Sie im Administratorhandbuch.

JAR-Pfad Der Pfad der relevanten JAR-Datei für den auszuführenden Hadoop-Auftrag MapReduce.
Anmerkung: Das JAR muss am Speicherort des externen Clients oder des Spectrum-Servers vorhanden sein. Es darf nicht im Hadoop-Cluster platziert werden.
Treiberklasse Wählen Sie eine Option:
Standard

Um einen externen Auftrag auszuführen, indem Sie einfach nur den Klassennamen des Auftrags und die Argumente für den Auftrag eingeben, wählen Sie Standard aus.

Wenn Sie Standard auswählen, werden die Felder Klassenname und Argumente angezeigt.

Konfigurieren
Um weitere Auftragseigenschaften eines beliebigen externen Auftrags einzugeben oder um einen beliebigen Spectrum Big Data Quality SDK-Auftrag auszuführen, wählen Sie Konfigurieren aus.

Wenn Sie Konfigurieren auswählen, wird das Feld Auftragstyp angezeigt.

Auftragstyp Wählen Sie eine Option:
Spectrum
Wählen Sie Spectrum aus, um einen beliebigen Spectrum Big Data Quality SDK-Auftrag auszuführen.

Wenn Sie Spectrum auswählen, wird das Feld Spectrum-Aufträge angezeigt.

Allgemein
Wählen Sie Allgemein aus, um weitere Eigenschaften für beliebige externe Aufträge anzugeben.
Spectrum-Aufträge Wählen Sie den benötigten Auftrag aus der Liste der Spectrum Big Data Quality SDK-Aufträge aus. Die Liste enthält diese Aufträge:
  • Adressenüberprüfung
  • Advanced Transformer
  • Best of Breed
  • Duplicate Synchronization
  • Filter
  • Groovy
  • Intraflow Match
  • Interflow Match
  • Joiner
  • Match Key Generator
  • Open Name Parser
  • Open Parser
  • Table Lookup
  • Transactional Match
  • Validate Address
  • Validate Address Global
Bei der Auswahl des gewünschten Spectrum-Auftrags:
  1. Die Felder Auftragsname, Klassenname und Argument werden automatisch ausgefüllt.

    Alle automatisch ausgefüllten Felder außer Klassenname können bei Bedarf bearbeitet werden.

    Wichtig: Bei dem ausgewählten Spectrum-Auftrag darf der automatisch ausgefüllte Klassenname nicht bearbeitet werden, da der Auftrag ansonsten nicht ausgeführt werden kann.
  2. Das Raster Eigenschaften wird automatisch mit den erforderlichen Konfigurationseigenschaften des ausgewählten Spectrum-Auftrags und deren Standardwerten ausgefüllt.

    Sie können weitere Eigenschaften hinzufügen oder importieren sowie die automatisch ausgefüllten Eigenschaften nach Bedarf ändern.

Klassenname Der vollständig qualifizierte Name der Treiberklasse des Auftrags.
Argumente Die durch Leerzeichen getrennte Liste von Argumenten. Diese werden zur Laufzeit zur Ausführung des Auftrags an die Treiberklasse weitergeleitet.

Beispiel:

23Dec2016 /home/Hadoop/EYInc.txt
  1. Diese Variablen können als Argumente in der Argumentenliste weitergeleitet werden. Diese Argumente sind so definiert, dass sie Laufzeitwerte entweder im Quellschritt oder in diesem aktuellen Schritt des Prozessflusses akzeptieren.

    Wenn beispielsweise in der Ausgabe des vorherigen Schritts des Prozessflusses die Variable SalesStartRange definiert wurde, können Sie diese Variable in dieser Argumentenliste als ${SalesStartRange} zusammen mit anderen erforderlichen Argumenten einschließen. Beispiel:

    23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}
  2. Wenn ein bestimmtes Argument ein Leerzeichen enthält, schließen Sie dieses Argument in doppelte Anführungszeichen ein.

    Beispiel: "/home/Hadoop/Sales Records".

Aufträge des Spectrum Big Data Quality SDK – Argumente:

Um die Spectrum Big Data Quality SDK MapReduce-Aufträge auszuführen, übergeben Sie die verschiedenen Konfigurationsdateien als Liste von Argumenten. Jeder Argumentschlüssel akzeptiert den Pfad einer einzelnen Konfigurationseigenschaftsdatei, wobei jede Datei mehrere Konfigurationseigenschaften enthält.

Die Syntax der Argumentenliste für Konfigurationseigenschaften ist:

[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to MapReduce configuration file>] [-output <Path of output directory>]

Beispiel für einen MapReduce MatchKeyGenerator-Auftrag:

-config /home/hadoop/matchkey/mkgConfig.xml -input /home/hadoop/matchkey/inputFileConfig.xml -conf /home/hadoop/matchkey/mapReduceConfig.xml -output /home/hadoop/matchkey/outputFileConfig.xml
Anmerkung: Wenn derselbe Konfigurationseigenschaftsschlüssel sowohl im Feld Argumente als auch im Raster Eigenschaften angegeben ist, aber jeder Schlüssel auf eine andere Konfigurationsdatei verweist, hat die Datei Vorrang, auf die im Raster Eigenschaften verwiesen wird.

Die Beispielkonfigurationseigenschaften werden mit dem Data and Address Quality for Big Data Quality SDK geliefert und befinden sich unter <Big Data Quality bundle>\samples\configuration.

Registerkarte „Allgemein“

Feld Beschreibung Voraussetzung
Auftragsname Der Name des Hadoop-Auftrags MapReduce. Erforderlich
Eingabepfad Der Pfad der Eingabedatei des Auftrags. Erforderlich
Ausgabepfad Der Pfad der Ausgabedatei des Auftrags. Erforderlich
Ausgabe überschreiben Zeigt an, ob der angegebene Ausgabepfad überschrieben werden muss, wenn er bereits vorhanden ist.
Anmerkung: Wenn dieses Kästchen deaktiviert bleibt und der konfigurierte Ausgabepfad zur Laufzeit vorhanden ist, gibt Hadoop eine Ausnahme aus und der Prozessfluss wird abgebrochen.
Optional
Mapper-Klasse Der vollständig qualifizierte Name der Klasse, die das Mapper-Feature für den Auftrag verarbeitet. Erforderlich
Reducer-Klasse Der vollständig qualifizierte Name der Klasse, die das Reducer-Feature für den Auftrag verarbeitet. Optional
Combiner-Klasse Der vollständig qualifizierte Name der Klasse, die das Combiner-Feature für den Auftrag verarbeitet. Optional
Partitioner-Klasse Der vollständig qualifizierte Name der Klasse, die das Partitioner-Feature für den Auftrag verarbeitet. Optional
Reducer-Anzahl Die Anzahl der für die Ausführung des Auftrags MapReduce verwendeten Reducer. Optional
Eingabeformat Das Format der Eingabedaten. Erforderlich
Ausgabeformat Das Format der Ausgabedaten. Erforderlich
Ausgabeschlüsselklasse Der Datentyp der Schlüssel in den Schlüssel-Wert-Paaren der Ausgabe. Erforderlich
Ausgabewertklasse Der Datentyp der Werte in den Schlüssel-Wert-Paaren der Ausgabe. Erforderlich

Registerkarte „Eigenschaften“

Um zusätzliche Eigenschaften für die Ausführung des erforderlichen Auftrags anzugeben, definieren Sie auf dieser Registerkarte so viele Eigenschaften-/Wertepaare wie erforderlich. Sie können die erforderlichen Eigenschaften direkt nacheinander im Raster hinzufügen.

Alternativ können Sie Eigenschaften aus einer Datei importieren, indem Sie auf Importieren klicken. Navigieren Sie zum Speicherort der jeweiligen Eigenschaftsdatei, und wählen Sie die Datei im XML-Format aus. Die in der importierten Datei enthaltenen Eigenschaften werden in das Raster kopiert. Die Eigenschaftsdatei muss im XML-Format vorliegen und dieser Syntax folgen:
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>

Sie können die Hadoop-Eigenschaftsdatei mapred.xml direkt importieren oder unter Verwendung dieses XML-Formats eigene Dateien erstellen.

Anmerkung:
  1. Wenn dieselbe Eigenschaft dort und in der Management Console definiert wurde, überschreiben die dort definierten Werte die in der Management Console definierten Werte.
  2. Wenn dieselbe Eigenschaft im Raster und auch in der importierten Eigenschaftsdatei vorhanden ist, dann überschreibt der aus der Datei importierte Wert den im Raster für dieselbe Eigenschaft vorhandenen Wert.
  3. Sie können falls erforderlich mehrere Eigenschaftsdateien nacheinander importieren. Die in den einzelnen importierten Dateien enthaltenen Eigenschaften werden im Raster hinzugefügt.
  4. Stellen Sie sicher, dass die Eigenschaftsdatei auf dem Spectrum™ Technology Platform-Server vorhanden ist.
  5. Das Tag <description> ist für alle Eigenschaftsschlüssel in einer Konfigurationseigenschaftsdatei optional.
  6. Referenzdaten müssen lokal auf Datenknoten platziert werden, um die relevanten Aufträge auszuführen. Diese Eigenschaft ist nur für Aufträge verfügbar, die Referenzdaten verwenden, z. B. Advanced Transformer, Validate Address Global und Validate Address. Die Eigenschaft ist: pb.bdq.reference.data.location.

Registerkarte „Abhängigkeiten“

Fügen Sie auf dieser Registerkarte die Liste mit den Eingabedateien und JAR-Dateien hinzu, die zur Ausführung des Auftrags erforderlich sind.

Nachdem der Auftrag ausgeführt wurde, sind die dort hinzugefügten Referenzdateien und JAR-Referenzdateien im verteilten Cache des Auftrags verfügbar.

Referenzdateien
Um die verschiedenen Dateien hinzuzufügen, die als Eingabe für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.

Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.

JAR-Referenzdateien
Um die JAR-Dateien hinzuzufügen, die für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.

Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.