Un projet autobiographique nourri par les données
Déçu par sa propre capacité à entretenir des liens sociaux et soucieux de donner un sens à sa trace numérique, un développeur a entrepris d'analyser vingt années de ses conversations en ligne. L'objectif : créer un véritable « cerveau second » structuré, un carnet de bord relationnel basé non pas sur la mémoire, mais sur l'enregistrement brut des échanges. Pour ce faire, il a rassemblé l'ensemble de ses messages échangés sur les principales plateformes utilisées depuis l'adolescence : ICQ et IRC dans les années 2000, puis VK, Twitter, Facebook, Instagram et Telegram pour la décennie suivante. Au total, ce sont près de 1,2 million de messages qui ont été extraits, grâce aux droits d'accès aux données personnelles conférés par le règlement général sur la protection des données (RGPD).
Un travail titanesque de nettoyage et de déduplication
La première difficulté a été technique : le format des archives variait considérablement d'une plateforme à l'autre. Instagram double-encodait le cyrillique en latin-1, Telegram assignait des identifiants internes différents selon les exports, Facebook avait introduit un chiffrement de bout en bout changeant l'organisation des fichiers. Une fois ces fichiers convertis en un format uniforme, le bruit de fond s'est révélé immense. Dans son échange le plus long – près de 486 000 messages avec sa compagne sur dix ans – 41 % des messages relevaient du bruit : emojis, liens, vidéos, ou simples interjections comme « hahaha » ou « cool ». Au lieu de les éliminer systématiquement (car des messages courts comme « il est mort » ou « on a perdu » peuvent être essentiels), l'auteur a constitué une liste noire des mots les plus fréquents après échantillonnage, tout en protégeant une liste blanche de phrases courtes marquant des événements de vie.
Le problème « Sasha » : l'identité des personnes
Une autre couche de complexité est apparue avec l'identification des interlocuteurs. Une même personne peut porter des pseudonymes et surnoms très différents d'une application à l'autre : « Alexander », « Al », « Alex », « Sasha » – sachant que « Sasha » est un diminutif épicène en langues slaves, pouvant désigner hommes ou femmes. Pour reconnaître les mêmes individus à travers les années et les plateformes, les outils d'analyse morphologique ou de reconnaissance d'entités nommées se sont révélés insuffisants ; l'auteur a dû recourir à un classifieur entraîné sur ses propres données.
Ce que les données révèlent sur les relations
Une fois le corpus nettoyé et les personnes identifiées, l'analyse a pu commencer. La première découverte concerne le vocabulaire : le taux de nouveauté lexicale – la proportion de mots jamais utilisés auparavant – est en déclin constant depuis 2008 et a atteint un plateau à 6 % il y a six ans. Autrement dit, l'essentiel du vocabulaire relationnel de l'auteur s'est fixé au début de la vingtaine. Plus frappant encore, la cartographie des sentiments directionnels – c'est-à-dire l'évaluation du ton employé avec chaque personne – a révélé des cycles d'affection et une « demi-vie » des amitiés que l'auteur juge inconfortables. Loin d'obtenir un simple outil de gestion relationnelle, il a pris conscience de ses limites émotionnelles et de la manière dont ses interactions s'espacent ou se concentrent naturellement au fil du temps.
Un outil pour « gagner des amis et influencer les gens » ?
L'initiateur du projet confie qu'il espérait au départ un système qui l'aiderait à mieux entretenir ses liens – un « CRM personnel ». Mais les résultats, publiés sous forme de billet de blog détaillé, l'ont confronté à une réalité moins flatteuse. La visualisation en graphe des connexions montre une croissance exponentielle du nombre de nœuds, jusqu'à former une « boule de poils » illisible. Plutôt qu'un tableau de bord optimisé, le projet a mis en lumière des « cycles d'affection » et des « demi-vies d'amitié », suggérant que la fréquence et la qualité des interactions suivent des lois quasi physiques, indépendantes de la volonté.
Des leçons qui dépassent le cas individuel
Bien que l'expérience soit personnelle, elle illustre les opportunités et les pièges de l'analyse des données conversationnelles à grande échelle. D'une part, les archives numériques offrent une matière d'une richesse inédite pour comprendre nos comportements réels – bien plus que les journaux intimes ou les souvenirs. D'autre part, le simple fait de disposer de ces données ne garantit pas une amélioration des relations ; il peut même révéler des dynamiques que l'on préférerait ignorer. L'auteur conclut en notant que son « gril de semaines », tel que conceptualisé par l'essayiste Tim Urban, ne se remplit pas uniquement d'événements marquants, mais aussi de la texture profonde des échanges quotidiens – une texture désormais quantifiable.