Résumé de section

    • Le displot() permet d'afficher différents types de distributions.

      signature displot

       
      Nom du paramètre Explications Ce qui lui faut comme format Exemple
      data

      Il faut donner au paramètre data le tableau entier que vous traitez

      DataFrame, Series, dict, array, or list of arrays data=tableau
      x variable du tableau utilisée pour les abscisses Chaine de caractères correspondant à une variable du tableau x="poids"
      y variable du tableau utilisée pour les ordonnées Chaine de caractères correspondant à une variable du tableau y=”taille”
      hue variable du tableau permettant de rajouter une dimension avec de la couleur Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière hue=”age”
      row variable du tableau qui permettra de créer un tableau de graphiques, ici les lignes Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière row=”catégorie”
      col variable du tableau qui permettra de créer un tableau de graphiques, ici les colonnes Chaine de caractères correspondant à une variable du tableau, catégorielle ou entière col=”métier”
      kind type de graphe que l’on veut Chaine de caractères, 3 choix possibles kind=”hist”,kind=”kde” ou kind=”ecdf”
      rug permet de voir les observations individuelles sur les axes. Booléen rug=True
       
      Code d'importation
      ← Exécution

      Voila un code modifiable d'exemple qui permet de faire un histogramme:
      Cellule 2
      ← Exécution

      Si l’on ne renseigne pas la donnée à mettre en ordonnée y, l’ordonnée sera le nombre d’occurence, et si l’on ne renseigne pas le kind c’est un histogramme par défaut. L’argument bins controle le nombre de barres. Le paramètre rug permet de voir les observations individuelles sur les axes du graphique.


      Nous avons aussi accès à la kernel density estimation(KDE) pour estimer une distribution. Voici un code d'exemple d'utilisation :

      Cellule 3
      ← Exécution

      Si l'on renseigne une variable pour y

      Cellule 4
      ← Exécution

      Un graphique de ce type se lit comme une carte de niveau. Chaque ligne correspond à des points ayant des densités de probabilités proches. Les centres de lignes sont les zones de plus haute densité.


      Le dernier type de distribution disponible est l'ECDF(empirical distribution function). On ne peut pas renseigner y pour cette distribution étant donné qu'elle est monovariationnelle.

      data = sns.load_dataset("penguins")
      sns.displot(data=data, x="body_mass_g", rug=True, hue="sex", kind="ecdf", row="species", col="sex", height=5)
      plt.show()
      Cellule 5
      ← Exécution

      Le paramètre row permet d'afficher encore plus de graphique selon une autre variable des données, les données comportent 3 espèces de pingouins on a donc 3 lignes de graphique, il y a 2 sexes dans les données on a donc 2 colonnes. height permet de contrôler la hauteur des graphiques.