Konfigurieren erweiterter Optionen

Lassen Sie Konstante Felder ignorieren aktiviert, damit Felder übersprungen werden, die für die einzelnen Datensätze die gleichen Werte enthalten.

Aktivieren Sie Klassen ausgleichen, um die Klassenverteilung auszugleichen und entweder für die Mehrheitsklassen ein Undersampling oder für die Minderheitsklassen ein Oversampling durchzuführen.

Wählen Sie einen Histogrammtyp aus.

Auto: Für Buckets wird ein Binning vom Minimum bis zum Maximum in Schritten von (max-min)/N durchgeführt. Verwenden Sie diese Option, um den Histogrammtyp für das Auffinden optimaler Teilungspunkte anzugeben.
QuantilesGlobal: Buckets haben die gleiche Population. Dies berechnet nbins Quantile für jede numerische (nicht binäre) Spalte. Dann wird jeder Bucket (zwischen zwei Quantilen) einheitlich angepasst (zufällig für Reste), sodass sich insgesamt nbins_top_level Bins ergeben.
Random: Der Algorithmus nimmt Stichproben von N-1 Punkten von Minimum bis Maximum und verwendet die sortierte Liste, um die beste Teilung zu finden.
RoundRobin: Der Algorithmus wechselt durch alle Histogrammtypen (einer pro Struktur).
UniformAdaptive: Jedes Feature wird per Binning einem Bucket zugeordnet, sodass sich Buckets mit gleicher Schrittgröße (nicht Population) ergeben. Dies ist die schnellste Methode, kann aber zu ungenaueren Aufteilungen führen, wenn die Verteilung sehr verzerrt ist.

Wählen Sie eine Kategorische Codierung aus.

Auto: Führt automatisch eine Enum-Codierung durch.
Binary: Konvertiert Kategorien in Ganzzahlen, dann in Binärwerte, und weist jeder Ziffer eine separate Spalte zu. Codiert die Daten in weniger Dimensionen, jedoch werden Entfernungen etwas verzerrt.
Anmerkung: Pro kategorischem Feature können nicht mehr als 32 Spalten vorhanden sein.
Eigen: k Spalten pro kategorischem Feature, behält nur Projektionen einer 1-aus-n-codierten Matrix auf k-dimensionalen Eigen-Raum bei.
Enum: Wechselt durch alle Histogrammtypen (einer pro Struktur).
OneHotExplicit: Pro Kategorie ist eine Spalte vorhanden, wobei „1“ oder „0“ in jeder Zelle anzeigen, ob die Zeile die Kategorie dieser Spalte enthält.

Lassen Sie Seed für Algorithmus und n-fach aktiviert, und geben Sie einen numerischen Ausgangswert ein, um sicherzustellen, dass die Darstellung der Daten bei jeder Datenflussausführung gleich ist, wenn diese in Test- und Trainingsdaten aufgeteilt werden. Deaktivieren Sie dieses Feld, damit die Aufteilung bei jeder Datenflussausführung beliebig erfolgt.

Aktivieren Sie N-fach und geben Sie die Anzahl der Folds ein, wenn Sie eine Kreuzvalidierung durchführen.

Aktivieren Sie Faktorzuweisung, und wählen Sie aus der Dropdown-Liste aus, ob Sie eine Kreuzüberprüfung durchführen. Dieses Feld ist nur anwendbar, wenn Sie unter N-fach einen Wert eingegeben haben und Faktorfeld nicht angegeben ist.

Auto: Lässt zu, dass der Algorithmus automatisch eine Option auswählt; derzeit wird „Random“ verwendet.
Modulo: Teilt das Dataset gleichmäßig auf die Folds auf und ist nicht vom Ausgangswert abhängig.
Random: Teilt die Daten zufällig in „N-fach“-Bestandteile ein; diese Einstellung ist für umfangreiche Datasets am besten geeignet.
Stratified: Schichtet die Folds basierend auf der Antwortvariable für Klassifizierungsprobleme. Verteilt Beobachtungen aus den verschiedenen Klassen gleichmäßig auf alle Datasets, wenn ein Dataset in Trainings- und Testdaten aufgeteilt wird. Dies kann nützlich sein, wenn viele Klassen vorhanden sind und das Dataset relativ klein ist.

Wenn Sie eine Kreuzvalidierung durchführen, aktivieren Sie Faktorfeld und wählen Sie aus der Dropdown-Liste das Feld aus, das die Faktorindexzuweisung für die Kreuzvalidierung enthält.

Dieses Feld ist nur anwendbar, wenn Sie unter N-fach und Faktorzuweisung keinen Wert eingegeben haben.

Aktivieren Sie Runden stoppen, um das Training zu beenden, wenn die Option „Stopping_metric“ sich nicht in der angegebenen Anzahl von Trainingsrunden verbessert, und geben Sie die Anzahl nicht erfolgreicher Trainingsrunden ein, die absolviert werden, bevor gestoppt werden soll. Um diese Funktion zu deaktivieren, geben Sie „0“ an. Die Metrik wird anhand der Überprüfungsdaten berechnet (falls vorhanden), ansonsten werden Trainingsdaten verwendet.

Wählen Sie eine Abbruchmetrik, um festzulegen, wann die Erstellung neuer Strukturen eingestellt werden soll.

AUC: Fläche unter ROC-Kurve.
Anmerkung: Gilt nur für binomiale Modelle.
Auto: Standardwert ist Abweichung.
Lifttopgroup: Beste 1 %.
Logloss: Logarithmischer Abfall.
Meanperclasserror: Die Fehlklassifizierungsrate.
Misclassification: Der Wert von (1 - (korrekte Vorhersagen/gesamte Vorhersagen)) * 100.
MSE: Mittlerer quadratischer Fehler, berücksichtigt sowohl Streuung als auch Tendenz des Prädiktors.
RMSE: Wurzel aus dem mittleren quadratischen Fehler; misst die Differenz zwischen Werten (Stichproben- und Populationswerte), die von einem Modell oder einem Schätzwert vorhergesagt wurden, und tatsächlich beobachteten Werten. Auch Quadratwurzel von MSE.

Aktivieren Sie Abbruchtoleranz, und geben Sie einen Wert ein, um die relative Toleranz für den metrikbasierten Abbruch des Trainings zu spezifizieren, wenn die Verbesserung geringer ist als dieser Wert. Dieses Feld ist nur aktiviert, wenn Sie Runden stoppen aktiviert haben.

Aktivieren Sie Minimale Aufteilungsverbesserung, und geben Sie einen Wert ein, um die minimale relative Verbesserung in der Verringerung des quadratischen Fehlers anzugeben, bei der eine Aufteilung durchgeführt werden soll. Wenn diese Option richtig ausgeführt wird, kann die Überanpassung verringert werden. Optimale Werte bewegen sich im Bereich von 1e-10 bis 1e-3. Dieses Feld ist nur aktiviert, wenn Sie Runden stoppen aktiviert haben.

Klicken Sie auf OK, um das Modell und die Konfiguration zu speichern, oder fahren Sie mit der nächsten Registerkarte fort.