高度なオプションの設定

  1. [定数フィールドを無視] をオンにすると、各レコードで値が同じフィールドがスキップされます。
  2. [p 値を計算] をオンにすると、パラメータを予測するための p 値が計算されます。
  3. モデルの作成時に共線列を自動的に削除するには、[共線列を削除] をオンのままにします。
    このオプションは、[p 値を計算] がオンになっている場合は常にオンにする必要があります。
    これにより、返されるモデルでは係数が 0 になります。
  4. 定数項 (切片) をモデルに含めるには、[定数項 (切片) を含める] をオンにします。
    [共線列を削除] がオンの場合は、このオプションを必ずオンにする必要があります。
  5. ドロップダウン リストから [ソルバー] を選択します。
    ソルバー説明
    Auto 入力データとパラメータに基づいてソルバーが決定されます。
    CoordinateDescentNaive 最も内側のループにおける循環座標降下法の共分散更新バージョンを使う IRLSM。
    CoordinateDescentNaive 最も内側のループにおける循環座標降下法のネイティブ更新バージョンを使う IRLSM。
    IRLSM 予測因子が少数のときの問題や、L1 ペナルティによるラムダ検索の問題に最適です。
    L_BFGS 多数の列が含まれるデータセットに最適です。
    注: CoordinateDescentNaive および CoordinateDescentNaive は現時点で実験用です。
  6. [アルゴリズムのシード] をオンにしてシード数を入力すると、データフローを何度実行しても、データが必ず同じ方法でテスト データとトレーニング データに分割されます。フローを実行するたびにランダムな分割を行う場合は、このフィールドをオフにします。
  7. 相互検証を実行する場合は [N フォールド] をオンにし、フォールドの数を入力します。
  8. 相互検証を実行する場合は、[フォールド割り当て] をオンにしてドロップダウン リストから選択します。
    フォールド割り当て説明
    Auto オプションの自動選択をアルゴリズムに任せます。現在、[ランダム] が選択されます。
    Modulo データセットをフォールドに等分し、シードを基準としません。
    Random データを n フォールドのサブセットにランダムに分割します。大きなデータセットに最適です。
    Stratified 分類問題の応答変数に基づいて、フォールドを層化します。データセットをトレーニング データとテスト データに分割する際に、観測値を複数のクラスからすべてのセットに均等に分散します。これは、クラスの数が多く、データセットが比較的小さい場合に便利です。
    このフィールドは、[N フォールド] に値が入力済みで、[フォールド フィールド] が指定されていない場合にのみ適用可能です。
  9. 相互検証を実行する場合は、[フォールド フィールド] をオンにして、相互検証フォールド インデックス割り当てを含むフィールドをドロップダウン リストから選択します。
    このフィールドは、[N フォールド][フォールド割り当て] に値が入力されていない場合のみ適用可能です。
  10. [最大反復回数] をオンにし、実行する必要があるトレーニング反復回数を入力します。
  11. [目標イプシロン] をオンにして、収束のしきい値を入力します。この値は 0 ~ 1 の間でなければなりません。
    目標値がこのしきい値に満たない場合、モデルは収束します。
  12. [ベータ イプシロン] をオンにして、収束のしきい値を入力します。この値は 0 ~ 1 の間でなければなりません。
    目標値がこのしきい値に満たない場合、モデルは収束します。現在のベータ変化の L1 正則化がこのしきい値に満たない場合、収束の使用を検討してください。
  13. 使用する正則化タイプを選択します。
    正則化タイプ説明
    LASSO (Least Absolute Shrinkage and Selection Operator) 十分に重要と見なされる大きなラムダの値によって変数の小さなサブセットを選択します。相関する予測子変数がある場合は、適切な実行ができないことがあります。相関があるグループの変数は 1 つが選択され、それ以外はすべて除去されるためです。次元の高さによる制限もあります。モデルに含まれている変数がレコードよりも多い場合、LASSO では選択できる変数の数に制限が生じます。リッジ回帰 (Ridge Regression) にはこの制限がありません。モデルに含まれる変数の数が多い場合や、解が疎であることがわかっている場合は、LASSO が推奨されます。
    Ridge Regression すべての予測子変数を保持し、その係数を均等に縮退します。相関のある予測子変数が存在する場合、リッジ回帰 (Ridge Regression) では相関がある変数のグループ全体の係数を互いに均等になるように縮退します。相関がある予測子変数をモデルから除去したくない場合は、リッジ回帰を使用します。
    Elastic Net LASSO とリッジ回帰 (Ridge Regression) を組み合わせたものであり、変数選択の機能を果たしながらも相関がある変数のグループ化の効果を保持 (同時に相関がある変数の係数を縮退) します。Elastic Net は、高次元による制限がなく、モデルに含まれている変数がレコードより多い場合でもすべての変数を評価できます。
    予測モデリングにおける一般的な懸念事項は過剰適合です。これは、分析モデルが特定のデータセットと非常によく (または完全に) 一致しているため、追加のデータや将来の観測データへの適用時にうまく機能しないというものです。過剰適合を緩和するために使用される方法の 1 つが正則化です。
  14. [アルファの値] をオンにし、デフォルト値 5 を使用しない場合は値を変更します。
    アルファ パラメータは、ℓ1 ペナルティと ℓ2 ペナルティの配分を制御します。有効な値の範囲は 0 ~ 1 です。値 1.0 は LASSO を表し、値 0.0 はリッジ回帰になります。以下の表に、アルファとラムダが正規化に及ぼす影響を示します。
    注: 単独の等号は "とする" を意味する代入演算子であり、2 つの等号を並べたものは "等しい" を意味する等価演算子です。
  15. [ラムダの値] をオンにし、Logistic Regression でラムダ値の計算にデフォルトの方法 (トレーニング データに基づく発見的方法) を使用しない場合は、値を指定します。
    ラムダ パラメータは適用される正則化の度合いを制御します。例えば、ラムダが 0.0 の場合は、正則化が適用されず、アルファ パラメータは無視されます。
  16. Logistic Regression で完全な正則化の手順でモデルを計算するには、[ラムダの最適値を探索] をオンにします。
    その場合は、ラムダが最大 (意味のあるラムダの最大値、すなわちすべての係数を 0 にする最小の値) の状態で開始し、対数スケールでラムダを最小まで減少させ、ステップごとに正則化の度合いを小さくしていきます。
    返されるモデルの係数は、トレーニング中に決定されたラムダの最適値に対応したものになります。
  17. トレーニングまたはバリデーション セットでそれ以上の改善がない場合に処理を終了するには、[早期停止] をオンにします。
  18. [探索する最大のラムダ] をオンにし、ラムダ探索の処理で使用するラムダの最大数を入力します。
  19. [最大アクティブ予測子数] をオンにし、計算時に使用する予測子の最大数を入力します。
    この値は、多数の予測子による高コストのモデル構築を防ぐために使用されます。
  20. [OK] をクリックして、モデルと設定を保存するか、次のタブで操作を続行します。