Big Data Quality SDK

Automatisierte Acushare-Installation

In dieser Version wurde der Installationsprozess von Acushare in jedem Knoten des Clusters, der für die Ausführung von Validate Address-Aufträgen erforderlich ist, automatisiert. Sie müssen nun einfach die Skriptdatei sdkrts.bin in jedem Knoten ausführen, um den Dienst automatisch im jeweiligen Knoten zu installieren und zu starten.

CASS-Berichte für „Validate Address“

Sie können nun den „Validate Address“-Auftrag mithilfe von Big Data Quality SDK im Modus CASS-zertifiziert erstellen und ausführen. Zusätzlich können Sie die folgenden CASS-Berichte erstellen:

  • CASS-Bericht 3553
  • CASS-Detailbericht

Sie können außerdem einen Zusammenfassungsbericht generieren, der als „Validate Address-Zusammenfassungsbericht“ bezeichnet wird.

Ausführen von Aufträgen mithilfe von Konfigurationsdateien

Sie können nun einen Auftrag mit hoher Datenqualität anhand der JAR-Datei eines Moduls in einer Console ausführen. Verwenden Sie den Befehl hadoop oder spark-submit, und reichen Sie die Konfigurationsdateien als Argumente ein.

Konfigurationsdateien müssen im XML-Format vorliegen. Beispielhafte Konfigurationsdateien liegen an folgendem Speicherort vor:

BigDataQualityBundle\samples\configuration

In den Konfigurationsdateien sind Eingabedateieigenschaften, MapReduce- und Spark-Konfigurationseigenschaften, Ausgabeverzeichniseinstellungen und allgemeine Eigenschaften für den Auftrag enthalten.

Neue Einstellungen für Eingabedateien

Textbegrenzungszeichen

Mit dem Big Data Quality SDK können Sie nun Textbegrenzungszeichen in der Eingabekonfiguration von MapReduce- und Spark-Aufträgen angeben. Textbegrenzungszeichen identifizieren Textwerte in der Eingabe.

Feldzuordnungen

Mit einem neuen Feld in der JobPath-Klasse können Sie das Mapping zwischen Quellspaltennamen und Ausgabespaltennamen festlegen. Das Feld nutzt ein Map der Schlüsselwertpaare, um Quellspaltennamen ihren entsprechenden Ausgabespaltennamen zuzuordnen.

Feldtrennzeichen für Ausgabedateien

Bei der Definition der Details der Ausgabedatei für einen Auftrag können Sie nun das Feldtrennzeichen angeben.

Unterstützung des ORC-Dateiformats

ORC-Dateiformate werden nun für die Eingabe und Ausgabe von Aufträgen unterstützt, die im Big Data Quality SDK bereitgestellt werden. Für Eingabe-, Ausgabe-, Kopfdubletten- und Kandidatendateien können Sie entweder Textdateien oder ORC-Dateien verwenden.

Anmerkung: Wenn Sie „Interflow Match“ verwenden, müssen die Kopfdubletten- und Kandidatendateien das gleiche Format aufweisen. Entweder sind es zwei ORC-Dateien oder zwei Textdateien.