Section : Regplot et Lmplot | Visualisation de données sur Seaborn

Résumé de section

Si l'on souhaite faire des régressions linéaires, seaborn a une fonction prédisposée : regplot().

Nom du paramètre	Explications	Ce qui lui faut comme format	Exemple
data	Il faut donner au paramètre data le tableau entier que vous traitez	DataFrame, Series, dict, array, or list of arrays	data=tableau
x	variable du tableau utilisée pour les abscisses	Chaine de caractères correspondant à une variable du tableau	x="poids"
y	variable du tableau utilisée pour les ordonnées	Chaine de caractères correspondant à une variable du tableau	y=”taille”
ci	variable permettant de contrôler l’intervalle de confiance affiché	Entier entre 0 et 100.	ci=99
nboot	variable permettant d’indiquer le nombre de réechantillonage bootstrap réalisés.	Entier	nboot=100
seed	variable indiquant une graine pour le bootstrap. Permet la reproductibilité.	Entier	seed=42
logistic	Variable permettant de choisir de faire une régression logistique	Booléen	logistic=True
lowess	Variable permettant de choisir de faire une régression LOWESS.	Booléen	lowess=True
robust	Variable permettant de choisir de faire une régression robuste.	Booléen	robust=True

regplot() permet aussi d'afficher l'intervalle de confiance de la courbe, par défaut à 95%.

Voici un exemple de code modifiable :

 Code d'importation
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import statsmodels
from pyodide.http import open_url

url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv"
data = pd.read_csv(open_url(url))
← Exécution

 Cellule 2
sns.regplot(data=data, x="bill_length_mm",y="bill_depth_mm", ci=70)
← Exécution

Ici nous sommes confiant à 70% que la vraie courbe se trouve dans l'intervalle affiché sur le graphique. nboot de base vaut 1000, augmenter cette valeur entrainera forcément un temps d'exécution plus long du code car il devra faire des rééchantillonages supplémentaires. seed permet de pour en voir toujours reproduire les mêmes échantillonages utilisant un entier "graine", pratique pour la reproductibilité lors de l'écriture d'un article scientifique ou pour vérifier le fonctionnement d'une méthode.

On peut modifier le type en choisissant une méthode de régression, par exemple le paramètre lowess et en le mettant à True :

 Cellule 3
sns.regplot(data=data, x="bill_length_mm", y="bill_depth_mm",
 ci=99, lowess=True)
← Exécution

L’intervalle de confiance n’est pas affiché lorsque l’on utilise une lowess.

Une autre option est le lmplot() qui est plus adapté pour faire des régression mais sur plusieurs graphiques :

signature lmplot

Nom du paramètre	Explications	Ce qui lui faut comme format	Exemple
data	Il faut donner au paramètre data le tableau entier que vous traitez	DataFrame, Series, dict, array, or list of arrays	data=tableau
x	variable du tableau utilisée pour les abscisses	Chaine de caractères correspondant à une variable du tableau	x="poids"
y	variable du tableau utilisée pour les ordonnées	Chaine de caractères correspondant à une variable du tableau	y=”taille”
hue	variable du tableau permettant de rajouter une dimension avec de la couleur	Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière	hue=”age”
row	variable du tableau qui permettra de créer un tableau de graphiques, ici les lignes	Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière	row=”catégorie”
col	variable du tableau qui permettra de créer un tableau de graphiques, ici les colonnes	Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière	col=”métier”
ci	variable permettant de contrôler l’intervalle de confiance affiché	Entier entre 0 et 100.	ci=99
nboot	variable permettant d’indiquer le nombre de réechantillonage bootstrap réalisés.	Entier	nboot=100
lowess	Variable permettant de choisir de faire une régression LOWESS.	Booléen	lowess=True

Voici un exemple de code :

 Cellule 4
sns.lmplot(data=data, x="bill_length_mm", y="bill_depth_mm", ci=95, hue="island", robust=True, col="sex")
← Exécution

Les régressions robust et logistic sont aussi disponibles comme pour regplot(). nboot et seed aussi.