Analyse et visualisatoiun de réseaux / humanités numériques, approches interdisciplinaires
Conférence de Martin Grandjean
Les réseaux sont un sujet très transversal mais très minoritaire dans les sciences humaines et sociales (pourtant bien présent en sciences dures et appliquées, sciences informatiques, etc.).
Pourquoi visualiser des données? Pourquoi visualiser des données en réseau en particulier? Qu’est-ce que cela peut nous dire?
La visualisation, une pratique qui a une histoire
Approche qui a une longue histoire, mais qui a eu des mutations rapides récemment. Véritable innovation (quand on regarde l’historique)? Remettre en question nos pratiques actuelles dans le temps long.
Premier exemple: art rupestre (Valley of fire, Nevada): visualiser l’information pour la décoration.
Exemple utilitaire: carte céleste (peut-être antérieures aux premières cartes terrestres), chine, 11e siècle.
Arbre généaologique: excellent exemple de représentation graphique pour le concept exprimé.
Les timelines, lignes du temps (vie et mort d’une personne avec événements de sa vie; vie et mort de plusieurs personnages d’une époque donnée; etc.).
Graphiques composites (plusieurs couches de données superposées). Exemple: William Playfair (1786) Commercial and Political Atlas.
Cartographie du monde, pas seulement ce qui est de l’ordre de l’humain mais naturel, topographie précise, etc.
La superposition des cartographies des cas de choléra et de l’emplacement des puits a permis de déduire que la maladie se transmettait par les sources d’eau viciée (corrélation évidente aujourd’hui, mais particulière à l’époque).
Jacques Bertin est la référence pour les différentes formes/façons de représenter les données (sémiotique graphique).
De quelles visualisations parle-t-on?
Type d’usage vs type de sources
Démonstration: montrer quelque chose.
Visualisations de recherche: extraction, texte mining, on cherche à extraire de l’information. Ces visualisations sont d’emblée beaucoup plus moches, mais ce n’est pas leur but d’être esthétiquement belles, mais d’être «lues» et donc interprétées selon une certaine lecture (généralement pour l’étudiant ou le chercheur, pas pour le lecteur grand public).
Usages et mésusages
De quels écueils faut-il se méfier? On retrouve des catalogues de choses très belles voire géniales, mais à quoi faut-il faire attention? Qu’est-ce qui nous empêche d’attribuer à une visualisation un caractère scientifique?
Les visualisations peuvent nous amener à découvrir d’autre chose dans la lecture de données, il faut être habitué à lire, éduquer le lectorat au pouvoir interprétatif. Il faut une heuristique interprétative.
Les représentations graphiques apparaissent parfois toute-puissantes! Il faut rester vigilant dans les représentations: elles ont parfois un pouvoir d’objectivation, comme si elles incarnaient la «vérité» pure et dure, mais les graphiques peuvent être tronqués, ne montrer qu’une partie de la réalité…
Représentations brutes: on évite parfois de «faire beau» précisément pour mieux incarner l’objectivité (éviter les critiques).
La plupart des visualisations de réseau manquent de contexte.
Introduction aux réseaux: des relations dans leur contexte
Pourquoi faire des réseaux? Comment les analyse-t-on?
Objet relationnel: s’intéresser aux relations dans leur contexte, pas seulement pour elles-mêmes; tout ce qui entoure leurs relations.
Convention graphique: deux sommets (vertex) sont reliés par une arête (edge) non dirigée.
On peut d’abord s’intéresser à 2 sommets reliés par une arête, puis à plein d’autres points autour de cette relation (ex. correspondance entre 2 personnes; leurs «voisins», amis communs qui ont eux aussi des relations les uns avec les autres…).
Une même relation peut être mise dans plusieurs contextes différents; les sens seront eux aussi différents.
«Quartet d’Anscombe»: mêmes propriétés statistiques simples mais représentation graphique très différente.
Si on visualise l’information sans réseau, on peut croire que c’est 4 fois la même chose; or la représentation des données montre que ce n’est pas la même chose que la seule analyse statistique!
«Boule de cheveux», «pelotte de laine», «big spaghetti monster»: graphe impossible à lire en tant que tel, il faudra trouver des stratégies pour le lire.
Formalisation de l’analyse de réseaux
Le premier exemple dans lequel on fait une analyse de réseau est un peu antérieur à l’usage métaphorique que l’on utilise beaucoup aujourd’hui: les sept ponts de Königsberg Leonhard Euler. Est-ce qu’il est possible de faire une balade sur l’île en empruntant tous les ponts sans passer 2 fois par le même pont? Cartes montrant tous les cheminements possibles – formalisation qui montre les réseaux qui relient les endroits. Euler montre que ce n’est pas possible (4 nœuds, 7 arêtes).
L’exercice peut être fait visuellement (on repasse sur le même pont avec le crayon), mais Euler montre que la démonstration peut être faite par comptage. Cela est nécessaire avec des grands jeux de données.
- Analyse visuelle
- Métriques locales
- Métriques globales
Des mesures de centralité peuvent donner des résultats différents.
Nombre de voisins, mais aussi proximité des sommets (chemin entre un point et les autres).
- centralité de degré: nombre absolu de connexions
- centralité de proximité: distance moyenne des autres sommets
- centralité d’intermédialité: très utilisée en sciences humaines et sociales. Connecte réseaux de correspondances entre eux.
- centralité de vecteur propre
Réseeaux et sciences humaines
La distinction entre les disciplines en sciences humaines varie selon les régions, les chercheurs.
Comment est-ce qu’un même jeu de données peut être analysées sous plusieurs axes différents?
- Usage métaphorique: sans source, sans matériau; terminologie pour décrire une situation.
- Usage reconstitué: première forme de formalisation. Mind map, carte mentale; on relie les choses. Hétérogène, difficile à analyser avec les métriques. Plutôt de l’ordre heuristique que de l’analyse de réseaux.
- Réseau tiré des sources
- Réseau de métadonnées
Conclusion intermédiaire
Le visuel devrait être un moyen pour le chercheur·euse d’avancer dans son projet, sa compréhension.
Mais attention lorsqu’on n’a pas accès aux données derrière!
On doit aussi prendre en compte que le public ne sait pas nécessairement lire (pouvoir totalisant des visualisations).
With great power comes great responsibility…
Le visuel est un moyen et pas une fin en soi!
Étude de cas: articuler types, niveaux et métriques
Extraire des données différentes dont les représentations peuvent se répondre: sources multiples, graphes de contenus, graphes de métadonnées.
Question didactique: quels outils utiliser? Facilement manipulables (pour expérimenter, s’exprimer), d’une part, et efficaces (pour présenter), d’autre part?
Outils recommandés:
- Gephi: https://gephi.org/
- igraph R package: https://igraph.org/r/
Martin Grandjean dépose les données dans des dépôts en ligne (ex. pour l’article), pas seulement pour donner accès aux lecteur·trices qui voudraient valider ses graphiques, mais pour lui-même (garder une copie figée pour pouvoir vérifier plusieurs années plus tard, avec les données et les formats de l’époque).
Importance aussi pour la communauté, que d’autres puissent s’en servir pour leur recherche!