Section : Heatmap et Clustermap | Visualisation de données sur Seaborn

Résumé de section

Seaborn permet aussi de faire des heatmap avec heatmap().

Nom du paramètre	Explications	Ce qui lui faut comme format	Exemple
data	Il faut donner au paramètre data le tableau entier que vous traitez	DataFrame, Series, dict, array, or list of arrays	data=tableau
cmap	Couleurs de la heatmap. Soit une palette de matplotlib soit une personalisée.	Chaîne de caractères correspondant à une palette ou une color_palette de seaborn.	cmap=”viridis” ou cmap = sns.color_palette("light:blue", as_cmap=True)
annot	Variable qui choisit si on affiche les valeurs des cellules	Booléen	annot=True, vaut False par défaut
vmin	Valeur minimum qui sera prise en compte pour la colormap	Valeur flottante	vmin=30.6
vmax	Valeur maximale qui sera prise en compte pour la colormap	Valeur flottante	vmax=42
linecolor	Variable permettant de choisir la couleur des lignes entre les cellules.	Chaîne de caractère correspondant à une couleur	linecolor=”blue”
linewidths	Variable contrôlant l’épaisseur des lignes entre les cellules	Valeur flottante	linewidths=0.2 ou linewidths=10
mask	Variable permettant de contrôler les valeurs prises en compte dans la heatmap.	Tableau de booléen au même format que data.	mask=tableau_mask

Voici un exemple de code :

 Code d'importation
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import scipy
from pyodide.http import open_url

url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/glue.csv"
glue = pd.read_csv(open_url(url)).pivot(index="Model",columns="Task",values="Score")
← Exécution

Cellule 2

← Exécution

On utilise pivot afin de formater les données dans l'ordre que l'on veut :

index donne la variable des ordonnées
columns donne la variable des abscisses
values doit être une variable numérique et c'est ce que la heatmap va colorer.

Cellule 3

← Exécution

Avec les paramètres vmin et vmax on peut choisir la plage de valeur sur laquelle la heatmap s'appliquera, et on a aussi des options graphiques comme avec linecolor et linewidths pour les lignes entre les cases. annot affiche les valeurs sur chaque case de la heatmap.

Si l'on a besoin d'avoir du clustering sur la heatmap on peut utiliser la clustermap() de Seaborn. Chose à savoir cette fonction nécessite scipy, il faudra donc l'installer sur l'environnement sur lequel vous travaillez. Si vous êtes sur le Collab, ca ne sera pas nécessaire vous pourrez l'importer directement.

signature clustermap

Nom du paramètre	Explications	Ce qui lui faut comme format	Exemple
data	Il faut donner au paramètre data le tableau entier que vous traitez	DataFrame, Series, dict, array, or list of arrays	data=tableau
method	Méthode scipy pour faire le clustering	Chaîne de caractère correspondant à une méthode de scipy	method=’centroid’
metric	Métrique scipy utilisée pour faire le clustering	Chaîne de caractère correspondant à une métrique de scipy	metric=’jaccard’
z_score	Variable permettant de centrer et réduire les données.	0 pour centrer et réduire les lignes, 1 pour les colonnes	z_score=0
standard_scale	Variable permettant de normaliser les données.	0 pour normaliser les lignes, 1 pour les colonnes	standard_scale=1
row_cluster, col_cluster	Variables permettant de choisir les axes de clustering	Booléen	row_cluster=False, faut True par défaut
figsize	Variable contrôlant la taille de la figure	tuple(largeur,hauteur)	figsize=(4,4)
dendrogram_ratio	Variable contrôlant le ratio de taille des dendogram	tuple(ratio de ligne, ratio de colonne)	dendrogram_ratio=(0.2,0.1)
cbar_pos	Variable contrôlant la position de la barre de couleur.	tuple(gauche,bas,largeur,hauteur)	cbar_pos=(0,0.1,0.05,0.6)

Voici un exemple de code :

 Cellule 4
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
iris = pd.read_csv(open_url(url))
species = iris.pop("species")
#Partie modifiable
sns.clustermap(iris)
← Exécution

On retire la variable en trop avec pop() pour pouvoir faire le clustering qui est "species", on la réutilisera juste après.

Les dendrogrammes sont les arbres sur le côté de la clustermap qui représentent les différents regroupement effectués.

Maintenant explorons différents paramètres :

 Cellule 5
lut = dict(zip(species.unique(), sns.color_palette("Set2", species.nunique())))
row_colors = species.map(lut)
sns.clustermap(iris,row_cluster=True,dendrogram_ratio=(0.3,0.1),row_colors=row_colors,method="weighted",metric="correlation",z_score=1,annot=True,figsize=(7,12),cbar_pos=(0,0.1,0.02,0.8))
← Exécution

row_cluster permet de regrouper les lignes selon leur similarité pour faire apparaitre des groupes. dendrogram_ratio permet de contrôler la taille des dendrogrammes, la première valeur est pour celui à gauche et la seconde celui en haut. row_colors permet de rajouter une couleur à côté des lignes. Ici avec les lignes précédentes on a l'espèce de chaque ligne de renseignée. metric permet de choisir la distance de similarité utilisée et method l'algorithme utilisé pour faire les regroupements. z_score à 1 indique qu'on normalise sur les lignes. cbar_pos permet de choisir la position de la cbar. annot permet d'afficher les valeurs de chaque case. figsize permet de contrôler la taille de la figure.