Big Data Quality SDK
Automatisierte Acushare-Installation
In dieser Version wurde der Installationsprozess von Acushare in jedem Knoten des Clusters, der für die Ausführung von Validate Address-Aufträgen erforderlich ist, automatisiert. Sie müssen nun einfach die Skriptdatei sdkrts.bin in jedem Knoten ausführen, um den Dienst automatisch im jeweiligen Knoten zu installieren und zu starten.
CASS-Berichte für „Validate Address“
Sie können nun den „Validate Address“-Auftrag mithilfe von Big Data Quality SDK im Modus CASS-zertifiziert erstellen und ausführen. Zusätzlich können Sie die folgenden CASS-Berichte erstellen:
- CASS-Bericht 3553
- CASS-Detailbericht
Sie können außerdem einen Zusammenfassungsbericht generieren, der als „Validate Address-Zusammenfassungsbericht“ bezeichnet wird.
Ausführen von Aufträgen mithilfe von Konfigurationsdateien
Sie können nun einen Auftrag mit hoher Datenqualität anhand der JAR-Datei eines Moduls in einer Console ausführen. Verwenden Sie den Befehl hadoop
oder spark-submit
, und reichen Sie die Konfigurationsdateien als Argumente ein.
Konfigurationsdateien müssen im XML-Format vorliegen. Beispielhafte Konfigurationsdateien liegen an folgendem Speicherort vor:
BigDataQualityBundle\samples\configuration
In den Konfigurationsdateien sind Eingabedateieigenschaften, MapReduce- und Spark-Konfigurationseigenschaften, Ausgabeverzeichniseinstellungen und allgemeine Eigenschaften für den Auftrag enthalten.
Neue Einstellungen für Eingabedateien
Textbegrenzungszeichen
Mit dem Big Data Quality SDK können Sie nun Textbegrenzungszeichen in der Eingabekonfiguration von MapReduce- und Spark-Aufträgen angeben. Textbegrenzungszeichen identifizieren Textwerte in der Eingabe.
Feldzuordnungen
Mit einem neuen Feld in der JobPath-Klasse können Sie das Mapping zwischen Quellspaltennamen und Ausgabespaltennamen festlegen. Das Feld nutzt ein Map
der Schlüsselwertpaare, um Quellspaltennamen ihren entsprechenden Ausgabespaltennamen zuzuordnen.
Feldtrennzeichen für Ausgabedateien
Bei der Definition der Details der Ausgabedatei für einen Auftrag können Sie nun das Feldtrennzeichen angeben.
Unterstützung des ORC-Dateiformats
ORC-Dateiformate werden nun für die Eingabe und Ausgabe von Aufträgen unterstützt, die im Big Data Quality SDK bereitgestellt werden. Für Eingabe-, Ausgabe-, Kopfdubletten- und Kandidatendateien können Sie entweder Textdateien oder ORC-Dateien verwenden.