Configuration des options avancées

  1. Laissez la case Ignorer champs de constante cochée pour ignorer les champs qui ont la même valeur pour chaque enregistrement.
  2. Cochez la case Calculer valeurs p pour calculer les valeurs de p pour les estimations de paramètres.
  3. Cochez la case Supprimer colonne colinéaire pour supprimer automatiquement les colonnes colinéaires pendant la construction du modèle. Cela permet d'obtenir un coefficient 0 dans le modèle renvoyé.
    Cette option doit être cochée si la case Calculer valeurs p est également cochée.
  4. Laissez la case Inclure terme constant (Intercepter) cochée pour inclure un terme constant (interception) dans le modèle.
    Cette option doit être cochée si la case Supprimer colonne colinéaire est également cochée.
  5. Sélectionnez un Solver dans la liste déroulante. Notez que CoordinateDescent et CoordinateDescentNaive sont actuellement des options expérimentales.
    Auto
    Solver est déterminé en fonction des paramètres et des données d’entrée.
    CoordinateDescent
    IRLSM avec la covariance met à jour la version de descente des coordonnées cycliques dans la boucle la plus interne.
    CoordinateDescentNaive
    IRLSM avec la valeur naïve met à jour la version de descente des coordonnées cycliques dans la boucle la plus interne.
    IRLSM
    Idéal en cas de problèmes avec un petit nombre de prédicteurs ou pour les recherches Lambda avec une pénalité N1.
    LBFGS
    Idéal pour les jeux de données avec de nombreuses colonnes.
  6. Laissez la case Seed pour N fois cochée et saisissez un numéro de seed pour vous assurer que lorsque les données sont divisées en données de test et de formation, cela se produit de la même manière chaque fois que vous exécutez le dataflow. Décochez ce champ pour obtenir une division aléatoire chaque fois que vous exécutez le flux.
  7. Cochez la case N fois et saisissez le nombre de fois si vous effectuez une validation croisée.
  8. Cliquez sur Attribution de fois et faites votre choix dans la liste déroulante si vous effectuez une validation croisée. Ce champ s’applique uniquement si vous avez saisi une valeur dans N fois et si Champ Fois  n’est pas spécifié.
    Auto

    Permet à l’algorithme de sélectionner automatiquement une option ; actuellement, il utilise Random (Aléatoire).

    Modulo

    Distribue le jeu de données de façon égale dans les occurrences N fois et ne dépend pas du seed.

    Random

    Distribue les données de manière aléatoire dans les occurrences N fois ; recommandé pour les grands jeux de données.

  9. Si vous effectuez une validation croisée, cochez la case Champ Fois et sélectionnez le champ qui contient l'affectation d'index fois la validation croisée dans la liste déroulante.
    Ce champ s’applique uniquement si vous n'avez pas saisi de valeur dans N fois ni dans Attribution de fois.
  10. Cochez Itérations maximales et saisissez le nombre d’itérations de formation qui doivent être effectuées.
  11. Cochez Epsilon Objectif et saisissez le seuil de convergence ; il doit s’agir d’une valeur comprise entre 0 et 1. Si la valeur d'objectif est inférieure à ce seuil, le modèle fait l'objet d'une convergence.
  12. Cochez Epsilon bêta et saisissez le seuil de convergence ; il doit s’agir d’une valeur comprise entre 0 et 1. Si la valeur d'objectif est inférieure à ce seuil, le modèle fait l'objet d'une convergence. Si la normalisation N1 du changement bêta actuel est inférieure à ce seuil, envisagez de recourir à la convergence.
  13. Dans la modélisation prédictive, une préoccupation courante est le sur-ajustement ou sur-apprentissage (overfitting en anglais), quand un modèle analytique correspond trop étroitement (ou exactement) à un jeu de données spécifique et peut donc échouer lorsqu'il est appliqué à des données supplémentaires ou à des observations futures. La régularisation est une méthode utilisée pour atténuer le sur-ajustement. Sélectionnez le Type de régularisation que vous souhaitez utiliser.
    LASSO (Least Absolute Shrinkage and Selection Operator)

    Sélectionne un petit sous-ensemble de variables dont la valeur de lambda est suffisamment élevée pour être considérée comme cruciale. Cela peut ne pas bien fonctionner lorsqu'il existe des variables prédictives corrélées, car cela sélectionnera une variable du groupe corrélé et supprimera toutes les autres. Cette méthode est également limitée par la forte dimensionnalité ; lorsqu'un modèle contient plus de variables que d'enregistrements, LASSO est limité en termes de nombre de variables qu'il peut sélectionner. Ridge Regression n'a pas cette limitation. Lorsque le nombre de variables incluses dans le modèle est élevé ou si la solution est connue pour être clairsemée, il est recommandé d'utiliser LASSO.

    Ridge Regression

    Conserve toutes les variables prédictives et réduit proportionnellement leurs coefficients. Lorsqu'il existe des variables prédictives corrélées, Ridge Regression réduit les coefficients de l'ensemble du groupe de variables corrélées pour les égaliser. Si vous ne souhaitez pas que des variables prédictives corrélées soient supprimées de votre modèle, utilisez Ridge Regression.

    Elastic Net

    Combine LASSO et Ridge Regression en agissant comme un sélecteur de variables tout en préservant l'effet de regroupement pour les variables corrélées (tout en réduisant les coefficients des variables corrélées). Elastic Net n'est pas limité par une forte dimensionnalité et peut évaluer toutes les variables lorsqu'un modèle contient plus de variables que d'enregistrements.

  14. Vérifiez Valeur d'alpha et modifiez la valeur si vous ne souhaitez pas utiliser la valeur par défaut 0,5. Le paramètre alpha contrôle la répartition entre les pénalités ℓ1 et ℓ2. Les valeurs valides sont comprises entre 0 et 1 ; une valeur 1,0 représente LASSO et une valeur 0,0 produit Ridge Regression. Le tableau ci-dessous montre comment alpha et lambda affectent la régularisation.
    Remarque : Le signe égal simple est un opérateur d'attribution qui signifie « est », tandis que le signe égal double est un opérateur d'égalité qui signifie « égal à ».
  15. Cochez Valeur de lambda et spécifiez une valeur si vous ne souhaitez pas que Linear Regression utilise la méthode par défaut de calcul de la valeur lambda, qui est une heuristique basée sur des données d'apprentissage. Le paramètre lambda contrôle la quantité de régularisation appliquée. Par exemple, si lambda est 0,0, aucune régularisation n'est appliquée et le paramètre alpha est ignoré.
  16. Cochez Rechercher la valeur de lambda optimale pour que Linear Regression calcule des modèles pour le chemin de régularisation complet, qui commence à lambda maxi. (la valeur lambda la plus élevée qui ait du sens, c.-à-d. la valeur la plus faible conduisant tous les coefficients à zéro) et qui descend jusqu'à lambda mini. sur l’échelle logarithmique, diminuant la force de régularisation à chaque étape. Le modèle renvoyé aura des coefficients correspondant à la valeur lambda optimale telle que décidée pendant l'apprentissage.
  17. Cochez Arrêter tôt pour terminer le traitement lorsqu'il n'y a plus d'amélioration relative sur l'ensemble de l'apprentissage ou de la validation.
  18. Cochez Recherche de lambda maximum et saisissez le nombre maximal de lambda à utiliser pendant le processus de recherche de lambda.
  19. Cochez Prédicteurs actifs maximum et saisissez le nombre maximal de prédicteurs à utiliser lors du calcul. Cette valeur est utilisée comme critère d'arrêt pour empêcher la création de modèles coûteux avec de nombreux prédicteurs.
  20. Cliquez sur OK pour enregistrer le modèle et la configuration ou pour passer à l’onglet suivant.