Run Hadoop MapReduce Job

Die Aktivität Hadoop-Auftrag MapReduce ausführen ermöglicht es Ihnen, einen MapReduce-Auftrag durch Mapping der relevanten JAR-Datei in einem Hadoop-Cluster auszuführen. Sie können mit dieser Aktivität einen MapReduce-Auftrag des Spectrum Data Quality for Big Data SDK oder einen externen MapReduce-Auftrag ausführen.

Anmerkung: Wenn der MapReduce-Auftrag fehlschlägt, wird eine Fehlermeldung zusammen mit dem Status des ausgeführten Auftrags angezeigt.

Feld	Beschreibung
Hadoop-Server	Die Liste der konfigurierten Hadoop-Server. Informationen zum Mapping von HDFS-Dateiservern über die Management Console finden Sie im Administratorhandbuch.
JAR-Pfad	Der Pfad der relevanten JAR-Datei für den auszuführenden Hadoop-Auftrag MapReduce. Anmerkung: Das JAR muss am Speicherort des externen Clients oder des Spectrum-Servers vorhanden sein. Es darf nicht im Hadoop-Cluster platziert werden.
Treiberklasse	Wählen Sie eine Option: Standard Um einen externen Auftrag auszuführen, indem Sie einfach nur den Klassennamen des Auftrags und die Argumente für den Auftrag eingeben, wählen Sie `Standard` aus. Wenn Sie `Standard` auswählen, werden die Felder Klassenname und Argumente angezeigt. Konfigurieren Um weitere Auftragseigenschaften eines beliebigen externen Auftrags einzugeben oder um einen beliebigen Spectrum Big Data Quality SDK-Auftrag auszuführen, wählen Sie `Konfigurieren` aus. Wenn Sie `Konfigurieren` auswählen, wird das Feld Auftragstyp angezeigt.
Auftragstyp	Wählen Sie eine Option: Spectrum Wählen Sie `Spectrum` aus, um einen beliebigen Spectrum Big Data Quality SDK-Auftrag auszuführen. Wenn Sie `Spectrum` auswählen, wird das Feld Spectrum-Aufträge angezeigt. Allgemein Wählen Sie `Allgemein` aus, um weitere Eigenschaften für beliebige externe Aufträge anzugeben.
Spectrum-Aufträge	Wählen Sie den benötigten Auftrag aus der Liste der Spectrum Big Data Quality SDK-Aufträge aus. Die Liste enthält diese Aufträge: Adressenüberprüfung Advanced Transformer Best of Breed Duplicate Synchronization Filter Groovy Intraflow Match Interflow Match Joiner Match Key Generator Open Name Parser Open Parser Table Lookup Transactional Match Validate Address Validate Address Global Bei der Auswahl des gewünschten Spectrum-Auftrags: Die Felder Auftragsname, Klassenname und Argument werden automatisch ausgefüllt. Alle automatisch ausgefüllten Felder außer Klassenname können bei Bedarf bearbeitet werden. Wichtig: Bei dem ausgewählten Spectrum-Auftrag darf der automatisch ausgefüllte Klassenname nicht bearbeitet werden, da der Auftrag ansonsten nicht ausgeführt werden kann. Das Raster Eigenschaften wird automatisch mit den erforderlichen Konfigurationseigenschaften des ausgewählten Spectrum-Auftrags und deren Standardwerten ausgefüllt. Sie können weitere Eigenschaften hinzufügen oder importieren sowie die automatisch ausgefüllten Eigenschaften nach Bedarf ändern.
Klassenname	Der vollständig qualifizierte Name der Treiberklasse des Auftrags.
Argumente	Die durch Leerzeichen getrennte Liste von Argumenten. Diese werden zur Laufzeit zur Ausführung des Auftrags an die Treiberklasse weitergeleitet. Beispiel: `23Dec2016 /home/Hadoop/EYInc.txt` Diese Variablen können als Argumente in der Argumentenliste weitergeleitet werden. Diese Argumente sind so definiert, dass sie Laufzeitwerte entweder im Quellschritt oder in diesem aktuellen Schritt des Prozessflusses akzeptieren. Wenn beispielsweise in der Ausgabe des vorherigen Schritts des Prozessflusses die Variable `SalesStartRange` definiert wurde, können Sie diese Variable in dieser Argumentenliste als `${SalesStartRange}` zusammen mit anderen erforderlichen Argumenten einschließen. Beispiel: `23Dec2016 /home/Hadoop/EYInc.txt ${SalesStartRange}` Wenn ein bestimmtes Argument ein Leerzeichen enthält, schließen Sie dieses Argument in doppelte Anführungszeichen ein. Beispiel: "/home/Hadoop/Sales Records". Aufträge des Spectrum Big Data Quality SDK – Argumente: Um die Spectrum Big Data Quality SDK MapReduce-Aufträge auszuführen, übergeben Sie die verschiedenen Konfigurationsdateien als Liste von Argumenten. Jeder Argumentschlüssel akzeptiert den Pfad einer einzelnen Konfigurationseigenschaftsdatei, wobei jede Datei mehrere Konfigurationseigenschaften enthält. Die Syntax der Argumentenliste für Konfigurationseigenschaften ist: `[-config <Path to configuration file>] [-debug] [-input <Path to input configuration file>] [-conf <Path to MapReduce configuration file>] [-output <Path of output directory>]` Beispiel für einen MapReduce MatchKeyGenerator-Auftrag: `-config /home/hadoop/matchkey/mkgConfig.xml -input /home/hadoop/matchkey/inputFileConfig.xml -conf /home/hadoop/matchkey/mapReduceConfig.xml -output /home/hadoop/matchkey/outputFileConfig.xml` Anmerkung: Wenn derselbe Konfigurationseigenschaftsschlüssel sowohl im Feld Argumente als auch im Raster Eigenschaften angegeben ist, aber jeder Schlüssel auf eine andere Konfigurationsdatei verweist, hat die Datei Vorrang, auf die im Raster Eigenschaften verwiesen wird. Die Beispielkonfigurationseigenschaften werden mit dem Data and Address Quality for Big Data Quality SDK geliefert und befinden sich unter <Big Data Quality bundle>\samples\configuration.

Registerkarte „Allgemein“

Feld	Beschreibung	Voraussetzung
Auftragsname	Der Name des Hadoop-Auftrags MapReduce.	Erforderlich
Eingabepfad	Der Pfad der Eingabedatei des Auftrags.	Erforderlich
Ausgabepfad	Der Pfad der Ausgabedatei des Auftrags.	Erforderlich
Ausgabe überschreiben	Zeigt an, ob der angegebene Ausgabepfad überschrieben werden muss, wenn er bereits vorhanden ist. Anmerkung: Wenn dieses Kästchen deaktiviert bleibt und der konfigurierte Ausgabepfad zur Laufzeit vorhanden ist, gibt Hadoop eine Ausnahme aus und der Prozessfluss wird abgebrochen.	Optional
Mapper-Klasse	Der vollständig qualifizierte Name der Klasse, die das Mapper-Feature für den Auftrag verarbeitet.	Erforderlich
Reducer-Klasse	Der vollständig qualifizierte Name der Klasse, die das Reducer-Feature für den Auftrag verarbeitet.	Optional
Combiner-Klasse	Der vollständig qualifizierte Name der Klasse, die das Combiner-Feature für den Auftrag verarbeitet.	Optional
Partitioner-Klasse	Der vollständig qualifizierte Name der Klasse, die das Partitioner-Feature für den Auftrag verarbeitet.	Optional
Reducer-Anzahl	Die Anzahl der für die Ausführung des Auftrags MapReduce verwendeten Reducer.	Optional
Eingabeformat	Das Format der Eingabedaten.	Erforderlich
Ausgabeformat	Das Format der Ausgabedaten.	Erforderlich
Ausgabeschlüsselklasse	Der Datentyp der Schlüssel in den Schlüssel-Wert-Paaren der Ausgabe.	Erforderlich
Ausgabewertklasse	Der Datentyp der Werte in den Schlüssel-Wert-Paaren der Ausgabe.	Erforderlich

Registerkarte „Eigenschaften“

Um zusätzliche Eigenschaften für die Ausführung des erforderlichen Auftrags anzugeben, definieren Sie auf dieser Registerkarte so viele Eigenschaften-/Wertepaare wie erforderlich. Sie können die erforderlichen Eigenschaften direkt nacheinander im Raster hinzufügen.

Alternativ können Sie Eigenschaften aus einer Datei importieren, indem Sie auf Importieren klicken. Navigieren Sie zum Speicherort der jeweiligen Eigenschaftsdatei, und wählen Sie die Datei im XML-Format aus. Die in der importierten Datei enthaltenen Eigenschaften werden in das Raster kopiert. Die Eigenschaftsdatei muss im XML-Format vorliegen und dieser Syntax folgen:

<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>

Sie können die Hadoop-Eigenschaftsdatei mapred.xml direkt importieren oder unter Verwendung dieses XML-Formats eigene Dateien erstellen.

Anmerkung:

Wenn dieselbe Eigenschaft dort und in der Management Console definiert wurde, überschreiben die dort definierten Werte die in der Management Console definierten Werte.
Wenn dieselbe Eigenschaft im Raster und auch in der importierten Eigenschaftsdatei vorhanden ist, dann überschreibt der aus der Datei importierte Wert den im Raster für dieselbe Eigenschaft vorhandenen Wert.
Sie können falls erforderlich mehrere Eigenschaftsdateien nacheinander importieren. Die in den einzelnen importierten Dateien enthaltenen Eigenschaften werden im Raster hinzugefügt.
Stellen Sie sicher, dass die Eigenschaftsdatei auf dem Spectrum™ Technology Platform-Server vorhanden ist.
Das Tag <description> ist für alle Eigenschaftsschlüssel in einer Konfigurationseigenschaftsdatei optional.
Referenzdaten müssen lokal auf Datenknoten platziert werden, um die relevanten Aufträge auszuführen. Diese Eigenschaft ist nur für Aufträge verfügbar, die Referenzdaten verwenden, z. B. Advanced Transformer, Validate Address Global und Validate Address. Die Eigenschaft ist: pb.bdq.reference.data.location.

Registerkarte „Abhängigkeiten“

Fügen Sie auf dieser Registerkarte die Liste mit den Eingabedateien und JAR-Dateien hinzu, die zur Ausführung des Auftrags erforderlich sind.

Nachdem der Auftrag ausgeführt wurde, sind die dort hinzugefügten Referenzdateien und JAR-Referenzdateien im verteilten Cache des Auftrags verfügbar.

Referenzdateien: Um die verschiedenen Dateien hinzuzufügen, die als Eingabe für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.
JAR-Referenzdateien: Um die JAR-Dateien hinzuzufügen, die für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.