Seaborn est une bibliothèque Python utilisée pour faire des visualisations de données (graphiques) de manière simple et esthétique.
Seaborn peut s'utiliser avec différents types de données, que ce soit des listes python, des tableaux numpy ou des dataframes pandas, bien que le dataframe de pandas soit à privilégier.

Il y a différents formats de tableaux de données :
Wide-format :
| Var1 |
Valeur1 |
Valeur2 |
Valeur3 |
| Var2 |
|
|
|
| Valeur1 |
Var3Val11 |
Var3Val12 |
Var3Val13 |
| Valeur2 |
Var3Val21 |
Var3Val22 |
Var3Val23 |
| Valeur3 |
Var3Val31 |
Var3Val32 |
Var3Val33 |
Le wide format est souvent plus naturel pour les humains, et certains algorithmes ou fonctions attendent ce format. Voici un exemple :
| Jour |
Temp_Paris |
Temp_Lyon |
| Lundi |
20 |
23 |
| Mardi |
19 |
24 |
Long-format :
| |
Var1 |
Var2 |
Var3 |
| Observation1 |
Var1Val1 |
Var2Val1 |
Var3Val1 |
| Observation2 |
Var1Val2 |
Var2Val2 |
Var3Val2 |
| Observation3 |
Var1Val3 |
Var2Val3 |
Var3Val3 |
Le format classique est le long-format qui permet d'avoir des points de données avec beaucoup de variables différentes. Voici l'exemple précédent en long-format :
| Jour |
Ville |
Température |
| Lundi |
Paris |
20 |
| Lundi |
Lyon |
23 |
| Mardi |
Paris |
19 |
| Mardi |
Lyon |
24 |
Voici une description d'un tableau dans ce format :

Il peut être intéressant de vérifier si des données sont manquantes, notamment si des algorithmes ne peuvent pas le supporter ou si ca risque de biaiser les résultats, ou le simple fait qu'avoir des données complètes facilite l'aggrégation de données par exemple. Voici le code permettant de le vérifier :
data=sns.load_dataset("penguins")
print(data.isnull())#sur le tableau entier
print(data.isnull().any())#sur chaque colonne
Puis si l’on ne veut pas considérer les observations avec valeurs nulles pour une variable par exemple :
data.dropna(subset=["body_mass_g"])
Il faut cependant faire attention si l'on a un dataset plutôt petit, et si par exemple les données manquantes appartiennent toujours à la même variable cela peut introduire un biai. C'est au final à l'appréciation de l'utilisateur.
Ce cours comprend des cellules de code modifiables et exécutables. La structure sera toujours la même dans chaque sous-section : Tout d'abord une cellule servant à importer les librairies nécessaires et récupérer les datasets que nous utiliserons, puis dans le reste de la sous-section des cellules de codes modifiables pour illustrer les différentes fonctions.