Section : Les types de graphique | Visualisation de données sur Seaborn

Résumé de section

- Sélectionner l’activité L'équivalent des scatterplot faisables avec les re...
  
  L'équivalent des scatterplot faisables avec les relplot() est l'objet Dot(). Après la cellule d'import tous les codes seront modifiables.
  
  Code d'importation
  import pandas as pd import seaborn as sns import seaborn.objects as so import numpy as np import matplotlib.pyplot as plt from pyodide.http import open_url url_tips = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" url_diamonds = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/diamonds.csv" url_healthexp = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/healthexp.csv" tips = pd.read_csv(open_url(url_tips)) diamonds=pd.read_csv(open_url(url_diamonds)) healthexp=pd.read_csv(open_url(url_healthexp))
  ← Exécution
  
  Cellule 2
  so.Plot(tips,x="smoker",y="tip").add(so.Dot(),so.Jitter(),color="day", marker="time").facet("sex").limit(y=(4,11)).show()
  ← Exécution
  
  color remplit le même rôle que le paramètre hue précédent, permettant de séparer les données selon une variable. marker permet d'utiliser une autre variable qui sera différenciée à l'aide de différents types de points, comme le paramètre style précédent. facet() remplit le même rôle que row et col. limit permet de restreindre les graphiques à des intervalles précis sur x et/ou y.
  
  Nous pouvons aussi facilement rajouter une courbe de régression avec Line() et Polyfit() :
  
  Cellule 3
  so.Plot(tips, x="total_bill", y="tip").add(so.Dot(), color="time", marker="day").facet("sex").add(so.Line(), so.PolyFit(), color="time").show()
  ← Exécution
  
  Cette même Line() peut avoir différents types comme Polyfit() mais peut aussi être utilisée en tant que représentation des données :
  
  Cellule 4
  diamonds.query("cut == 'Ideal' and (color == 'D' or color == 'F')").pipe(so.Plot, "depth","price",linestyle="color").add(so.Line(color=".1",linewidth=1),so.Agg()).add(so.Band(), so.Est(),group="color",color="color").show()
  ← Exécution
  
  Si l'on ne spécifie pas de type de Line() on relie les points de donnée avec des lignes. Chose intéressante avec le fait d'utiliser des DataFrame pandas, ce que rend la méthode load_dataset(), c'est que l'on peut utiliser .query() pour faire des requêtes type SQL pour sélectionner des données spécifiques. Ici nous prenons seulement les joyaux dont la "cut" est "Ideal" et avec certaines couleurs spécifiques. La fonction pipe() chainée permet de donner ce DataFrame selectionné en argument de la fonction Plot(), les autres arguments peuvent ensuite être donnés tels que x, y et linestyle. La ligne tracée ne correspond pas à chaque point d'observation, en effet l'utilisation de Agg() permet de faire de l'aggrégation de données : chaque "price" pour une "depth" donnée est aggrégée et moyennée dans le graphique. Les objets Band() et Est() permettent d'afficher l'incertitude des courbes.
  
  L'objet Path() est une alternative à Line(), idéale pour représenter des trajectoires car elle relit les points de données dans l'ordre dans lequel ils sont présentés.
  
  Cellule 5
  p = so.Plot(healthexp, "Spending_USD", "Life_Expectancy", color="Country").add(so.Path()).show()
  ← Exécution
  
  Si l'on veut afficher la surface sous des courbes, on utilise Area(). Le paramètre wrap de facet() permet de chosir combien de graphique il y aura par ligne.
  
  Cellule 6
  so.Plot(healthexp,"Year","Spending_USD").facet("Country",wrap=3).add(so.Area(),color="Country",legend=False).show()
  ← Exécution
  
  On peut empiler les surfaces avec Stack().
  
  Cellule 7
  so.Plot(healthexp,"Year","Spending_USD",color="Country").add(so.Area(),so.Stack()).show()
  ← Exécution
  
  L'objet Range() permet d'afficher des intervalles et nécessite des bornes ou un Est() pour calculer ce qu'il y a à afficher. Avec ce dernier on affiche la moyenne et l'intervalle de confiance. On peut aussi explicitement donner des bornes à afficher.
  
  Cellule 8
  df = pd.DataFrame({ "x": [1, 2, 3], "y": [10, 15, 20], "ymin": [8, 12, 17], "ymax": [12, 18, 23] }) so.Plot(df, x="x", y="y").add(so.Range(), ymin="ymin", ymax="ymax").show()
  ← Exécution
  
  Pour faire des histogrammes, on utilise Bar() avec Hist(). On peut choisir le type de statistique utilisée. Par défaut "count" est utilisé mais on peut choisir "density" pour des densités de probabilités, "percent" pour avoir des pourcentages, "probability" pour des proportions ou encore "frequency" pour la fréquence.
  
  Cellule 9
  so.Plot(tips,x="total_bill").add(so.Bar(),so.Hist(stat="density")).add(so.Line(color="red"),so.KDE()).show()
  ← Exécution
  
  On peut aussi utiliser Bar() pour afficher par exemple une moyenne avec Agg() qui permet de faire de l'aggrégation de données. Dodge() permet de faire la même chose que dodge des graphiques non objets.
  
  Cellule 10
  so.Plot(tips, "total_bill", "smoker", color="sex").add(so.Bar(alpha=.5), so.Agg(), so.Dodge()).add(so.Range(), so.Est(errorbar="sd"), so.Dodge()).show()
  ← Exécution
  
  Pour compter simplement des occurences, on utilise aussi Bar() mais avec Count().
  
  Cellule 11
  so.Plot(tips,y="day",color="smoker").add(so.Bar(),so.Count(),so.Stack()).show()
  ← Exécution
  
  On peut aussi utiliser les objets Seaborn pour afficher des percentiles avec Perc(). On peut choisir les percentiles que l'on souhaite afficher, et ici on les affiche sous forme de Dot(). Si l'on ne choisit rien de spécifique on affiche les percentiles [20,40,60,80,100].
  
  Cellule 12
  so.Plot(tips,"smoker","total_bill").add(so.Dot(marker="s"),so.Perc([10,50,90])).show()
  ← Exécution
  
  On peut faire un graphique ou l'on rajoute différents intervalles correspondants à des percentiles avec Range() que l'on déplace avec Shift() pour que ce soit visible. Ici scale() permet de modifier l'échelle sur les axes, celui des abscisses dans notre cas.
  
  Cellule 13
  so.Plot(diamonds, "price", "cut").add(so.Dots(pointsize=1, alpha=.2), so.Jitter(.3)).add(so.Range(color="k"), so.Perc([0, 25]), so.Shift(y=.2)).add(so.Range(color="k"), so.Perc([75, 100]), so.Shift(y=.2)).scale(x="log").show()
  ← Exécution
  
  On peut aussi normaliser les valeurs avec Norm(). Ici on normalise par rapport à l'année minimum, donc l'année 1970.
  
  Cellule 14
  so.Plot(healthexp, x="Year", y="Spending_USD", color="Country").add(so.Lines(), so.Norm(where="x == x.min()",percent=True)).show()
  ← Exécution
  
  Les objets Dot(), Line(), Path() et Bar() ont des variantes (Dots, Lines, etc.) plus adaptées aux gros volumes de données. Voici un exemple avec à gauche Bar() et à droite Bars().
  
  On peut aussi modifier l'échelle des axes avec scale(). Différents choix tels que "log" et "sqrt" sont disponibles, ainsi que "log2" et "log10".
  
  Cellule 15
  so.Plot(tips,x="total_bill",y="tip").add(so.Dots(),so.Jitter(0.5),color="day",marker="time").scale(x=so.Continuous(trans="log"),y=so.Continuous(trans="sqrt")).show()
  ← Exécution