Nous arrivons de plus en plus dans une ère de la donnée. Les entreprises se découvrent de nouvelles richesses grâce à l’accumulation de plus en plus de données, provenant de sources de plus en plus variées. Le domaine du Big Data prend ainsi de plus en plus d’ampleur et s’associe à la Business Intelligence pour mieux connaître l’environnement d’une organisation. Pour tirer profit de ces activités, la Data Visualization joue un rôle déterminant.

Le rôle des Data Scientists, et de toute personne en charge de produire des analyses statistiques, est de récupérer ces données, les préparer pour leur exploitation, les traiter leur donner un sens, et les présenter.

En effet, une part majeure de ce processus est la transmission de l’information. L’étude des données n’est qu’un moyen et non une fin. Le but de ces travaux est d’aider à la prise de décision. Il est donc nécessaire que le résultat des recherches sur les données soient clairement exploitables pour le système de décision. Pour cela, il faut que le rapport représente la réalité tout en mettant en valeur les éléments significatifs et les tendances.

Pour présenter des données et faire passer un message, dans le domaine de la recherche scientifique, la réalisation de visualisations graphiques est une tâche quotidienne.

Toutefois, le choix du type de graphique reste une étape délicate. Il faut adapter le type de graphique que l’on propose en fonction des variables que l’on sélectionne et du message que l’on veut faire passer.

Analyse préalable pour une Data Visualization réussie

Le processus de création d’une représentation graphique implique une étape de réflexion préalable qu’il ne faut pas négliger. Il faut savoir se poser les bonnes questions pour partir dans la bonne direction et présenter ses données de manière efficace.

La nécessité du graphique

Avant toute chose, il est utile de se demander si un diagramme est plus à même de rendre compte de certains chiffres et certaines propriétés que des données statistiques brutes. Parfois, un graphique n’est pas nécessaire car il n’apporte pas plus de lisibilité aux données.

Connaître le destinataire

Puisqu’un graphique est fait pour être partagé, il est un moyen de communication. Une communication est aussi définie par un émetteur et un destinataire. Ainsi, il faut savoir l’adapter à ce dernier.

Le message à faire passer

Après avoir inspecté les données à disposition, il faut déterminer un objectif de Data Visualization. Il faut ainsi pouvoir déterminer le message et le type de lecture que l’ont veut transmettre. Généralement, il y a 4 catégories :

  • Comparaison
  • Relation
  • Distribution
  • Composition

Ensuite, il faut considérer le nombre de valeurs et de catégories à exposer, le nombre de dimensions et s’il y a une dimension temporelle.

La définition de ces paramètres constitue un ensemble de facteurs qui vont aider à déterminer le type de graphique à choisir.

Le support de présentation

Les graphiques peuvent apparaître sur différents supports.

On distingue ainsi 2 catégories de graphiques : fixe et dynamique.

Un graphique fixe ne s’affiche que d’une manière et d’une seule. Il peut être exposé dans un article (papier ou électronique), ou projeté dans un slide d’une présentation de type PowerPoint.

L’avantage pour le producteur du graphique est que tout est contrôlable. Il peut parfaitement régler les échelles, les couleurs, les valeurs à afficher, la visibilité des légendes, etc…

Un graphique dynamique apporte des fonctionnalités qui permettent d’explorer et afficher plus d’information de manière interactive et introduit de nouvelles techniques de Data Visualization. Il s’agit alors d’un système qui repose sur des interactions, le plus souvent avec une souris, de différentes manières : clic gauche, clic droit, survol, drag’n’drop. Il existe différentes techniques pour rajouter de la valeur au graphique : atténuation des couleurs, agrandissements, affichage de données dans des tooltips

On peut retrouver les graphiques dynamiques dans des logiciels spécialisés, mais aussi sur le web construits avec JavaScript. La bibliothèque la plus populaire est D3.js. Il existe aussi des outils en ligne pour réaliser simplement ses graphiques.

Attention toute fois à ne pas se reposer sur les interactions.

Premièrement, car le lecteur doit pouvoir interpréter le graphique à première vue, sans le parcourir. Aussi, il n’est pas forcément conscient de toutes les fonctionnalités et données cachées si on ne lui indique pas clairement. Ensuite, il est probable qu’il se serve du graphique comme s’il était figé en l’imprimant, en l’enregistrant en PDF ou en le projetant comme une capture d’écran.

Les différents types de graphique

En fonction des nombreux paramètres que l’on a a disposition, nous pouvons donc choisir un type de graphique.

Dans la plupart des cas, il est suffisant (et préférable) de choisir un type de graphique simple et générique. Ainsi, le message sera plus facile à déchiffrer.

Dans le premier cas, les auteurs rajoutent de la confusion en utilisant un axe cyclique. De plus, le graphique contraint les légendes et labels à une police plus petite et donc moins lisibles. https://medium.com/@hint_fm/design-and-redesign-4ab77206cf9

Voici donc une sélection de types de graphiques populaires :

Bar Chart

Le graphique à barres est le plus basique. Il permet de comparer des valeurs de différentes catégories, qui n’ont pas forcément d’enchaînement.

Si la dimension temporelle n’apparaît pas dans les données, il est conseillé de trier les valeurs selon un ordre croissant ou décroissant pour améliorer la lisibilité.

Il existe deux types de barres : horizontales ou verticales (« Column Chart »).

Les graphiques avec les colonnes sont utilisés pour présenter un faible nombre de valeurs (moins de 10). On peut les utiliser pour présenter une tendance sur quelques points temporels.

Les graphiques à barres horizontales permettent de visualiser jusqu’à une quinzaine de valeurs. Ils permettent aussi d’afficher des labels de catégories plus longs que dans un graphique en colonne.

Les graphiques à barres peuvent aussi faire figurer plusieurs valeurs par catégorie pour effectuer plusieurs comparaisons à la fois :

Group bar chart

Une autre alternative est l’empilement des valeurs (stacked) :

Résultat de recherche d'images pour "stacked bar charts"

Line Chart

line chart

Le graphique en lignes, est fréquemment utilisé pour présenter une série de valeurs de même catégorie, qui mettent en valeur une continuation, souvent en fonction du temps (à placer sur l’axe des abscisses). Une seule ligne peut servir à montrer l’évolution d’un indicateur, tandis que plusieurs peuvent mettre en valeur des divergences entre les valeurs de deux sources de données.

Comparé au graphique en colonnes, le graphique en lignes est plus adapté à un nombre important de valeurs (plus de 10).

Area Chart

stacked area chart

Le graphique en aires  reprend le même concept que le graphique en lignes, en mettant en valeur la surface jusqu’à l’axe des abscisses.  Il peut être utilisé pour représenter des données cumulatives.

Il n’est pas possible de faire des superpositions pour faire des comparaisons, mais un empilement permet d’indiquer l’évolution de la composition d’un tout dans le temps, soit en valeurs absolues, soit en pourcentages.

Radar Chart

radar chart

Le graphique en radar (ou « Spider Chart ») est similaire aux graphiques en lignes ou en aires, mais pour les valeurs non-ordonnées.

Il est utilisé pour l’évaluation de plusieurs paramètres (généralement 5 ou 6) distincts pour un ou deux éléments.

Pie Chart

pie chart

Le graphique par secteurs (ou « camembert », « gâteau ») sert à présenter la composition à un instant donné d’un élément.

Un bon graphique par secteurs ne présente pas plus de 5 secteurs. En afficher plus serait illisible. Pour éviter cela, on peut rassembler les secteurs les plus négligeables en catégorie « Autres », ou passer à un graphique en barres ordonnées.

On associe aux labels les valeurs en terme absolu et en pourcentage pour préciser les différences et mieux les discerner.

Il existe aussi le « donut plot » qui, comme son nom l’indique comporte un trou au milieu, et qui peut être étendu pour présenter plusieurs niveaux, ce qui peut en revanche pénaliser la clarté.

multi-level donut chart

Scatter Plot

scatter plot

Le graphique à nuage de points permet de démontrer une corrélation (ou non) entre différentes variables.

Ce genre de graphique permet aussi d’identifier différentes catégories d’éléments en mettant en valeurs plusieurs groupes (clusters).

Il est parfois utile de configurer des échelles logarithmiques pour uniformiser la distribution des résultats.

On peut aussi rajouter une dimension en faisant varier la taille des points. On parle alors de graphique à bulles (« Bubble Chart »).

Une dimension supplémentaire peut être facilement rajoutée en catégorisant les bulles par couleur.

bubble chart

Map

map chart

Bien sûr, les cartes géographiques permettent de visualiser des données scientifiques en fonction de leur région.

Certaines fois, une carte représentant la surface réelle d’un territoire  n’est pas représentative de la population participante aux données, et il existe ainsi le Cartogramme, qui remodélise les frontières de manière à accorder les aires proportionnellement aux nombres d’habitants.

12 conseils généraux supplémentaires

  1. Toujours vérifier l’exactitude des données
  2. Pour pouvoir les expliquer, connaître la provenance et les méthodes de calcul des indicateurs
  3. Tester les graphiques avec des données réelles
  4. Réduire au minimum le nombre d’informations présentées à la fois quand elles n’apportent pas de valeur en plus du message principal
  5. Trier les valeurs quand cela est possible
  6. Fournir un titre précis et clair
  7. Rester simple avec les échelles, les aligner, et si possible, n’en garder qu’une par graphique
  8. S’assurer de la lisibilité des légendes et labels. La légende n’est pas nécessaire s’il n’y a qu’une catégorie
  9. Privilégier des couleurs distinctes aux variantes d’une même couleur automatiquement générées sur un graphique comparant plusieurs éléments, et vérifier le rendu en noir et blanc
  10. Apporter des possibilités d’interaction quand cela est nécessaire mais ne pas dépendre d’elles pour faire passer le message principal
  11. Utiliser des grilles uniquement lorsque nécessaire. On peut aussi se contenter de lignes verticales ou horizontales au lieu des deux. Aussi, réduire leur opacité pour ne pas perturber la lisibilité
  12. Éviter les artifices : ombres, effets 3D, textures, images, figures…

dataviz tip

Conclusion

La Data Visualization ne se résume donc pas à la simple réalisation technique de graphiques. Il faut savoir analyser les données à disposition, connaître leur relations entre elles, leur volume, leurs catégories, afin de déterminer les dimensions intéressantes pour ensuite choisir le type de graphique le plus adapté pour apporter le plus de valeur ajoutée.

Le graphique doit ainsi être sobre, et présenter un message clair et direct.

Cela nécessite alors un certain nombre de connaissances et de techniques, dont une partie à été présentée dans ce guide.

Sources

http://www.forbes.com/sites/dorieclark/2014/03/10/data-visualization-is-the-future-heres-why/#1407974346fa

https://tdwi.org/Articles/2011/02/02/Impact-of-Data-Visualization.aspx?Page=1

https://pdfs.semanticscholar.org/0578/5aab0be639d1d0030a8ced8274f730b2eb19.pdf?_ga=1.117417798.1160303300.1485869046

https://www.semanticscholar.org/paper/Data-visualisation-Jonge/669d0a0deb64db03142eaa7ee0146e26b9f76663

https://www.semanticscholar.org/paper/A-Study-on-Dual-Scale-Data-Charts-Isenberg-Bezerianos/05785aab0be639d1d0030a8ced8274f730b2eb19

https://www.labnol.org/software/find-right-chart-type-for-your-data/6523/

http://www.slideshare.net/singhvivek6/14-tips-to-present-awesome-charts-2071447

https://medium.com/@kennelliott/39-studies-about-human-perception-in-30-minutes-4728f9e31a73#.ry6lsryeg

https://eazybi.com/blog/data_visualization_and_chart_types/