高度なオプションの設定

  1. [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
  2. [クラスのバランスをとる] をオンにすると、クラス分布のバランスをとるために大多数のクラスでアンダーサンプリングが行われるか、少数のクラスでオーバーサンプリングが行われます。
  3. [ヒストグラム タイプ] を選択します。
    ヒストグラム タイプ説明
    Auto バケットが最小値から最大値まで (最大値 - 最小値)/N の刻み幅でビニングされます。このオプションで、最適な分割ポイントを見つけるために使用するヒストグラムのタイプを指定します。
    QuantilesGlobal 各バケットに含める個体数を均等にします。個々の数値列 (二値以外) の nbins 個の分位を計算した後、2 つの分位に挟まれた各バケットに含める内容を均等に (残余はランダムに) 取捨選択して合計 nbins_top_level 個のビンを生成します。
    Random 最小値から最大値までの N-1 個のポイントをサンプリングし、それらのポイントをソートしたリストから最適な分割ポイントを見つけます。
    RoundRobin すべてのヒストグラム タイプを (ツリーごとに 1 つずつ) 順に繰り返し使用します。
    UniformAdaptive 個々のフィーチャーをビニングして刻み幅 (個体数ではない) が均等のバケットを生成します。これは最速の方法ですが、分布に大きな偏りがあると分割が正確でなくなる可能性があります。
  4. [カテゴリ別エンコーディング] を選択します。
    カテゴリ別エンコーディング説明
    Auto 自動的に 列挙型 エンコーディングを実行します。
    Binary

    カテゴリを整数に変換してから 2 進数に変換し、その各桁を別々の列に割り当てます。次元数を減らしてデータをエンコードします (距離に歪みが生じます)。

    注: カテゴリ別のフィーチャーの列の数は 32 以下でなければなりません。
    Eigen カテゴリ別のフィーチャーの k 個の列についてのみ、ワンホット (one-hot) エンコーディング マトリックスを k 次元固有空間に投影し続けます。
    列挙 すべてのヒストグラム タイプを (ツリーごとに 1 つずつ) 順に繰り返し使用します。
    OneHotExplicit カテゴリごとに 1 つの列を生成し、列の各セルの値 "1" または "0" でその列のカテゴリが行に含まれているかどうかを表します。
  5. [アルゴリズムと N フォールドのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
  6. 相互検証を実行する場合は、[N フォールド] をオンにして、フォールドの数を入力します。
  7. 相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。
    フォールド割り当て説明
    Auto オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。
    Modulo データセットをフォールドに等分し、シードを基準としません。
    Random データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。
    Stratified 分類問題の応答変数に基づいて、フォールドを層化します。データセットをトレーニング データとテスト データに分割する際に、観測値を複数のクラスからすべてのセットに均等に分散します。これは、クラスの数が多く、データセットが比較的小さい場合に便利です。
    このフィールドは、[N フォールド] に値が入力済みで、[フォールド フィールド] が指定されていない場合にのみ適用可能です。
  8. 相互検証を実行する場合は、[フォールド フィールド] をオンにして、相互検証フォールド インデックス割り当てを含むフィールドをドロップダウン リストから選択します。
    このフィールドは、[N フォールド][フォールド割り当て] に値が入力されていない場合のみ適用可能です。
  9. [停止の基準回数] をオンにすると、指定した回数のトレーニングで Stopping_metric オプションの改善が見られないとき、トレーニングの停止前に失敗したトレーニングの回数が入力されます。この機能を無効にするには、0 を指定します。
    この指標は Validation データに基づいて計算されます (提供されている場合)。そうでなければ、トレーニング データが使われます。
  10. [停止指標] を選択して、新しいツリーの生成を終了するタイミングを決定します。
    停止指標説明
    AUC

    ROC 曲線下面積。

    注: 二項モデルにのみ適用できます。
    Auto デフォルトは deviance です。
    Lifttopgroup 上位 1%。
    Logloss 対数損失
    Meanperclasserror 平均誤分類率。
    Misclassification (1 - (正しい予測数/合計予測数)) * 100 の値。
    MSE 平均 2 乗誤差。予測変数の分散とバイアスを包含する誤差です。
    RMSE 2 乗平均平方根誤差。モデルや評価関数によって予測された値 (サンプルや母集団の値) と実際に観測した値との差異を表します。MSE の平方根でもあります。
  11. [停止の基準許容値] をオンにし、指標に基づく停止の相対許容誤差を指定する値を入力すると、改善がこの値未満の場合にトレーニングが終了します。
    このフィールドは、[停止の基準回数] をオンにしている場合にのみ有効になります。
  12. [最小分割改善] をオンにし、2 乗誤差が低減したときに分割が行われるように最小の相対的な改善を指定する値を入力します。
    このオプションは、適切に実行すれば、過剰適合を減らす効果があります。最適な値は 1e-10...1e-3 の範囲でしょう。このフィールドは、[停止の基準回数] をオンにしている場合にのみ有効になります。
  13. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。