Résumé de section

    • Si l'on souhaite faire des régressions linéaires, seaborn a une fonction prédisposée : regplot().

      Nom du paramètre Explications Ce qui lui faut comme format Exemple
      data

      Il faut donner au paramètre data le tableau entier que vous traitez

      DataFrame, Series, dict, array, or list of arrays data=tableau
      x variable du tableau utilisée pour les abscisses Chaine de caractères correspondant à une variable du tableau x="poids"
      y variable du tableau utilisée pour les ordonnées Chaine de caractères correspondant à une variable du tableau y=”taille”
      ci variable permettant de contrôler l’intervalle de confiance affiché Entier entre 0 et 100. ci=99
      nboot variable permettant d’indiquer le nombre de réechantillonage bootstrap réalisés. Entier nboot=100
      seed variable indiquant une graine pour le bootstrap. Permet la reproductibilité. Entier seed=42
      logistic Variable permettant de choisir de faire une régression logistique Booléen logistic=True
      lowess Variable permettant de choisir de faire une régression LOWESS. Booléen lowess=True
      robust Variable permettant de choisir de faire une régression robuste. Booléen robust=True

      regplot() permet aussi d'afficher l'intervalle de confiance de la courbe, par défaut à 95%.


      Voici un exemple de code modifiable :

      Code d'importation
      ← Exécution
      Cellule 2
      ← Exécution

      Ici nous sommes confiant à 70% que la vraie courbe se trouve dans l'intervalle affiché sur le graphique. nboot de base vaut 1000, augmenter cette valeur entrainera forcément un temps d'exécution plus long du code car il devra faire des rééchantillonages supplémentaires. seed permet de pour en voir toujours reproduire les mêmes échantillonages utilisant un entier "graine", pratique pour la reproductibilité lors de l'écriture d'un article scientifique ou pour vérifier le fonctionnement d'une méthode.

      On peut modifier le type en choisissant une méthode de régression, par exemple le paramètre lowess et en le mettant à True : 

      Cellule 3
      ← Exécution

      L’intervalle de confiance n’est pas affiché lorsque l’on utilise une lowess.


      Une autre option est le lmplot() qui est plus adapté pour faire des régression mais sur plusieurs graphiques : 

      signature lmplot

      Nom du paramètre Explications Ce qui lui faut comme format Exemple
      data

      Il faut donner au paramètre data le tableau entier que vous traitez

      DataFrame, Series, dict, array, or list of arrays data=tableau
      x variable du tableau utilisée pour les abscisses Chaine de caractères correspondant à une variable du tableau x="poids"
      y variable du tableau utilisée pour les ordonnées Chaine de caractères correspondant à une variable du tableau y=”taille”
      hue variable du tableau permettant de rajouter une dimension avec de la couleur Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière hue=”age”
      row variable du tableau qui permettra de créer un tableau de graphiques, ici les lignes Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière row=”catégorie”
      col variable du tableau qui permettra de créer un tableau de graphiques, ici les colonnes Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière col=”métier”
      ci variable permettant de contrôler l’intervalle de confiance affiché Entier entre 0 et 100. ci=99
      nboot variable permettant d’indiquer le nombre de réechantillonage bootstrap réalisés. Entier nboot=100
      lowess Variable permettant de choisir de faire une régression LOWESS. Booléen lowess=True

      Voici un exemple de code : 

      Cellule 4
      ← Exécution

      Les régressions robust et logistic sont aussi disponibles comme pour regplot(). nboot et seed aussi.