Run Hadoop MapReduce Job
Die Aktivität Hadoop-Auftrag MapReduce ausführen ermöglicht es Ihnen, einen MapReduce-Auftrag durch Mapping der relevanten JAR-Datei in einem Hadoop-Cluster auszuführen. Sie können mit dieser Aktivität einen MapReduce-Auftrag des Spectrum Data Quality for Big Data SDK oder einen externen MapReduce-Auftrag ausführen.
Feld | Beschreibung |
---|---|
Hadoop-Server | Die Liste der konfigurierten Hadoop-Server. Informationen zum Mapping von HDFS-Dateiservern über die Management Console finden Sie im Administratorhandbuch. |
JAR-Pfad | Der Pfad der relevanten JAR-Datei für den auszuführenden Hadoop-Auftrag MapReduce. Anmerkung: Das JAR muss am Speicherort des externen Clients oder des Spectrum-Servers vorhanden sein. Es darf nicht im Hadoop-Cluster platziert werden.
|
Treiberklasse | Wählen Sie eine Option:
|
Auftragstyp | Wählen Sie eine Option:
|
Spectrum-Aufträge | Wählen Sie den benötigten Auftrag aus der Liste der Spectrum Big Data Quality SDK-Aufträge aus. Die Liste enthält diese Aufträge:
Bei der Auswahl des gewünschten Spectrum-Auftrags:
|
Klassenname | Der vollständig qualifizierte Name der Treiberklasse des Auftrags. |
Argumente | Die durch Leerzeichen getrennte Liste von Argumenten. Diese werden zur Laufzeit zur Ausführung des Auftrags an die Treiberklasse weitergeleitet. Beispiel:
Um die Spectrum Big Data Quality SDK MapReduce-Aufträge auszuführen, übergeben Sie die verschiedenen Konfigurationsdateien als Liste von Argumenten. Jeder Argumentschlüssel akzeptiert den Pfad einer einzelnen Konfigurationseigenschaftsdatei, wobei jede Datei mehrere Konfigurationseigenschaften enthält. Die Syntax der Argumentenliste für Konfigurationseigenschaften ist: [-config <Path to configuration file>]
[-debug] [-input <Path to input configuration file>] [-conf
<Path to MapReduce configuration file>] [-output <Path of
output directory>] Beispiel für einen MapReduce MatchKeyGenerator-Auftrag: -config
/home/hadoop/matchkey/mkgConfig.xml -input
/home/hadoop/matchkey/inputFileConfig.xml -conf
/home/hadoop/matchkey/mapReduceConfig.xml -output
/home/hadoop/matchkey/outputFileConfig.xml Anmerkung: Wenn derselbe Konfigurationseigenschaftsschlüssel sowohl im Feld Argumente als auch im Raster Eigenschaften angegeben ist, aber jeder Schlüssel auf eine andere Konfigurationsdatei verweist, hat die Datei Vorrang, auf die im Raster Eigenschaften verwiesen wird.
Die Beispielkonfigurationseigenschaften werden mit dem Data and Address Quality for Big Data Quality SDK geliefert und befinden sich unter <Big Data Quality bundle>\samples\configuration. |
Registerkarte „Allgemein“
Feld | Beschreibung | Voraussetzung |
---|---|---|
Auftragsname | Der Name des Hadoop-Auftrags MapReduce. | Erforderlich |
Eingabepfad | Der Pfad der Eingabedatei des Auftrags. | Erforderlich |
Ausgabepfad | Der Pfad der Ausgabedatei des Auftrags. | Erforderlich |
Ausgabe überschreiben | Zeigt an, ob der angegebene Ausgabepfad überschrieben werden muss, wenn er bereits vorhanden ist. Anmerkung: Wenn dieses Kästchen deaktiviert bleibt und der konfigurierte Ausgabepfad zur Laufzeit vorhanden ist, gibt Hadoop eine Ausnahme aus und der Prozessfluss wird abgebrochen.
|
Optional |
Mapper-Klasse | Der vollständig qualifizierte Name der Klasse, die das Mapper-Feature für den Auftrag verarbeitet. | Erforderlich |
Reducer-Klasse | Der vollständig qualifizierte Name der Klasse, die das Reducer-Feature für den Auftrag verarbeitet. | Optional |
Combiner-Klasse | Der vollständig qualifizierte Name der Klasse, die das Combiner-Feature für den Auftrag verarbeitet. | Optional |
Partitioner-Klasse | Der vollständig qualifizierte Name der Klasse, die das Partitioner-Feature für den Auftrag verarbeitet. | Optional |
Reducer-Anzahl | Die Anzahl der für die Ausführung des Auftrags MapReduce verwendeten Reducer. | Optional |
Eingabeformat | Das Format der Eingabedaten. | Erforderlich |
Ausgabeformat | Das Format der Ausgabedaten. | Erforderlich |
Ausgabeschlüsselklasse | Der Datentyp der Schlüssel in den Schlüssel-Wert-Paaren der Ausgabe. | Erforderlich |
Ausgabewertklasse | Der Datentyp der Werte in den Schlüssel-Wert-Paaren der Ausgabe. | Erforderlich |
Registerkarte „Eigenschaften“
Um zusätzliche Eigenschaften für die Ausführung des erforderlichen Auftrags anzugeben, definieren Sie auf dieser Registerkarte so viele Eigenschaften-/Wertepaare wie erforderlich. Sie können die erforderlichen Eigenschaften direkt nacheinander im Raster hinzufügen.
<configuration>
<property>
<name>key</name>
<value>some_value</value>
<description>A brief description of the
purpose of the property key.</description>
</property>
</configuration>
Sie können die Hadoop-Eigenschaftsdatei mapred.xml direkt importieren oder unter Verwendung dieses XML-Formats eigene Dateien erstellen.
- Wenn dieselbe Eigenschaft dort und in der Management Console definiert wurde, überschreiben die dort definierten Werte die in der Management Console definierten Werte.
- Wenn dieselbe Eigenschaft im Raster und auch in der importierten Eigenschaftsdatei vorhanden ist, dann überschreibt der aus der Datei importierte Wert den im Raster für dieselbe Eigenschaft vorhandenen Wert.
- Sie können falls erforderlich mehrere Eigenschaftsdateien nacheinander importieren. Die in den einzelnen importierten Dateien enthaltenen Eigenschaften werden im Raster hinzugefügt.
- Stellen Sie sicher, dass die Eigenschaftsdatei auf dem Spectrum™ Technology Platform-Server vorhanden ist.
- Das Tag
<description>
ist für alle Eigenschaftsschlüssel in einer Konfigurationseigenschaftsdatei optional. - Referenzdaten müssen lokal auf Datenknoten platziert werden, um die relevanten Aufträge auszuführen. Diese Eigenschaft ist nur für Aufträge verfügbar, die Referenzdaten verwenden, z. B. Advanced Transformer, Validate Address Global und Validate Address. Die Eigenschaft ist: pb.bdq.reference.data.location.
Registerkarte „Abhängigkeiten“
Fügen Sie auf dieser Registerkarte die Liste mit den Eingabedateien und JAR-Dateien hinzu, die zur Ausführung des Auftrags erforderlich sind.Nachdem der Auftrag ausgeführt wurde, sind die dort hinzugefügten Referenzdateien und JAR-Referenzdateien im verteilten Cache des Auftrags verfügbar.
- Referenzdateien
- Um die verschiedenen Dateien hinzuzufügen, die als Eingabe für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.
- JAR-Referenzdateien
- Um die JAR-Dateien hinzuzufügen, die für die Ausführung des Auftrags erforderlich sind, klicken Sie auf Hinzufügen, navigieren Sie zum entsprechenden Speicherort auf Ihrem lokalen System oder Cluster und wählen Sie die gewünschte Datei aus.
Um eine beliebige, der Liste hinzugefügte Datei zu entfernen, wählen Sie diese Datei aus und klicken Sie auf Entfernen.