Le displot() permet d'afficher différents types de distributions.
Nom du paramètre
Explications
Ce qui lui faut comme format
Exemple
data
Il faut donner au paramètre data le tableau entier que vous traitez
DataFrame, Series, dict, array, or list of arrays
data=tableau
x
variable du tableau utilisée pour les abscisses
Chaine de caractères correspondant à une variable du tableau
x="poids"
y
variable du tableau utilisée pour les ordonnées
Chaine de caractères correspondant à une variable du tableau
y=”taille”
hue
variable du tableau permettant de rajouter une dimension avec de la couleur
Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière
hue=”age”
row
variable du tableau qui permettra de créer un tableau de graphiques, ici les lignes
Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière
row=”catégorie”
col
variable du tableau qui permettra de créer un tableau de graphiques, ici les colonnes
Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière
col=”métier”
kind
type de graphe que l’on veut
Chaine de caractères, 3 choix possibles
kind=”hist”,kind=”kde” ou kind=”ecdf”
rug
permet de voir les observations individuelles sur les axes.
Booléen
rug=True
Code d'importation
← Exécution
Voila un code modifiable d'exemple qui permet de faire un histogramme:
Cellule 2
← Exécution
Si l’on ne renseigne pas la donnée à mettre en ordonnée y, l’ordonnée sera le nombre d’occurence, et si l’on ne renseigne pas le kind c’est un histogramme par défaut. L’argument bins controle le nombre de barres. Le paramètre rug permet de voir les observations individuelles sur les axes du graphique.
Nous avons aussi accès à la kernel density estimation(KDE) pour estimer une distribution. Voici un code d'exemple d'utilisation :
Cellule 3
← Exécution
Si l'on renseigne une variable pour y :
Cellule 4
← Exécution
Un graphique de ce type se lit comme une carte de niveau. Chaque ligne correspond à des points ayant des densités de probabilités proches. Les centres de lignes sont les zones de plus haute densité.
Le dernier type de distribution disponible est l'ECDF(empirical distribution function). On ne peut pas renseigner y pour cette distribution étant donné qu'elle est monovariationnelle.
Le paramètre row permet d'afficher encore plus de graphique selon une autre variable des données, les données comportent 3 espèces de pingouins on a donc 3 lignes de graphique, il y a 2 sexes dans les données on a donc 2 colonnes. height permet de contrôler la hauteur des graphiques.