Section : Displot | Visualisation de données sur Seaborn

Résumé de section

Le displot() permet d'afficher différents types de distributions.

signature displot

Nom du paramètre	Explications	Ce qui lui faut comme format	Exemple
data	Il faut donner au paramètre data le tableau entier que vous traitez	DataFrame, Series, dict, array, or list of arrays	data=tableau
x	variable du tableau utilisée pour les abscisses	Chaine de caractères correspondant à une variable du tableau	x="poids"
y	variable du tableau utilisée pour les ordonnées	Chaine de caractères correspondant à une variable du tableau	y=”taille”
hue	variable du tableau permettant de rajouter une dimension avec de la couleur	Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière	hue=”age”
row	variable du tableau qui permettra de créer un tableau de graphiques, ici les lignes	Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière	row=”catégorie”
col	variable du tableau qui permettra de créer un tableau de graphiques, ici les colonnes	Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière	col=”métier”
kind	type de graphe que l’on veut	Chaine de caractères, 3 choix possibles	kind=”hist”,kind=”kde” ou kind=”ecdf”
rug	permet de voir les observations individuelles sur les axes.	Booléen	rug=True

 Code d'importation
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from pyodide.http import open_url

url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv"
data = pd.read_csv(open_url(url))
← Exécution

Voila un code modifiable d'exemple qui permet de faire un histogramme:

 Cellule 2
sns.displot(data=data, x="bill_length_mm", rug=True, hue="sex", bins=20)
← Exécution

Si l’on ne renseigne pas la donnée à mettre en ordonnée y, l’ordonnée sera le nombre d’occurence, et si l’on ne renseigne pas le kind c’est un histogramme par défaut. L’argument bins controle le nombre de barres. Le paramètre rug permet de voir les observations individuelles sur les axes du graphique.

Nous avons aussi accès à la kernel density estimation(KDE) pour estimer une distribution. Voici un code d'exemple d'utilisation :

 Cellule 3
sns.displot(data=data,x="bill_length_mm", rug=True, hue="sex", kind="kde")
← Exécution

Si l'on renseigne une variable pour y :

 Cellule 4
sns.displot(data=data,x="bill_length_mm", y="bill_depth_mm", rug=True, hue="sex", kind="kde")
← Exécution

Un graphique de ce type se lit comme une carte de niveau. Chaque ligne correspond à des points ayant des densités de probabilités proches. Les centres de lignes sont les zones de plus haute densité.

Le dernier type de distribution disponible est l'ECDF(empirical distribution function). On ne peut pas renseigner y pour cette distribution étant donné qu'elle est monovariationnelle.

 Cellule 5
sns.displot(data=data, x="body_mass_g", rug=True, hue="sex", kind="ecdf", row="species", col="sex", height=5)
← Exécution

Le paramètre row permet d'afficher encore plus de graphique selon une autre variable des données, les données comportent 3 espèces de pingouins on a donc 3 lignes de graphique, il y a 2 sexes dans les données on a donc 2 colonnes. height permet de contrôler la hauteur des graphiques.