Un robot entre dans un lieu inconnu
Imaginez un robot quadruple entrant dans un poste électrique non cartographié. Son centrale inertielle indique qu'il bascule vers l'avant à 0,3 m/s². Sa caméra stéréoscopique place le coin du transformateur le plus proche à 4,2 mètres, avec un décalage vers la gauche tandis que le robot tourne. Un télémètre laser (LiDAR) renvoie une distance de 4,18 mètres, avec une confiance moitié moindre qu'en extérieur. Aucune de ces mesures n'est parfaite isolément. Chacune constitue un résidu par rapport à la meilleure estimation actuelle de la position du robot. L'ensemble du travail de SLAM (Simultaneous Localization and Mapping, ou localisation et cartographie simultanées) consiste à rassembler tous ces résidus, à les pondérer selon la fiabilité de chaque capteur, et à résoudre la trajectoire et la carte qui les minimisent. Ce lieu de calcul s'appelle un graphe de facteurs.
Comment fonctionne un graphe de facteurs
Pour visualiser le processus, on peut imaginer la vie du robot comme un collier de perles. Chaque perle représente une pose : la position du robot à un instant donné dans l'espace tridimensionnel. Certaines perles sont le robot lui-même, d'autres sont des points de repère qu'il a observés, comme le coin du transformateur. Entre chaque paire de perles court un fil, une contrainte indiquant que ces deux perles doivent se trouver à une certaine distance, avec une certaine orientation et un certain niveau de confiance. Une mesure de caméra est un fil, une mesure inertielle en est un autre, un relevé GPS un autre encore, et l'odométrie des roues un autre.
L'ensemble des perles et des fils constitue un graphe. Dans le langage du domaine, on parle de graphe de facteurs, les perles étant les variables et les fils les facteurs. Certains fils sont courts et rigides (une mesure stéréoscopique de haute confiance d'un élément situé à un mètre), d'autres sont longs et extensibles (une estimation d'odométrie intégrée sur deux secondes de marche). L'optimiseur déplace les perles dans l'espace jusqu'à ce que les fils soient aussi détendus que possible, en respectant davantage les fils rigides que les fils extensibles. Cette pondération par la confiance constitue tout le secret.
L'innovation : des calculs incrémentaux
L'idée profonde, due à Frank Dellaert du Georgia Institute of Technology et à la bibliothèque GTSAM que son équipe a construite, est que ce réarrangement n'a pas besoin de repartir de zéro à chaque nouvelle mesure. Le graphe de facteurs peut être réorganisé en un arbre où les nouvelles mesures ne perturbent qu'une petite partie de celui-ci. Michael Kaess et ses coauteurs ont rendu ce processus incrémental en 2012 avec un article intitulé iSAM2. Aujourd'hui, presque tous les systèmes SLAM modernes font tourner une version de cet algorithme en coulisses.
La boucle de fermeture, clé de la cohérence
La fermeture de boucle est l'endroit où les mathématiques prouvent leur valeur. Un robot parcourt un carré autour d'un bâtiment. Au bout de trente secondes, il a accumulé une dérive ; sa trajectoire lui fait croire qu'il est de retour dans le couloir de départ, mais en réalité il se trouve à trois mètres de distance, car chaque mesure d'odométrie est un petit mensonge qui s'accumule. Un module de reconnaissance de lieu remarque alors que la vue actuelle correspond à une vue enregistrée mille images plus tôt. Le système ajoute un facteur reliant la pose actuelle à cette ancienne pose. L'optimiseur rétro-propage la nouvelle contrainte à travers toutes les poses intermédiaires. La trajectoire entière se remet en cohérence. C'est la différence entre l'odométrie visuelle, qui dérive indéfiniment, et le SLAM, qui referme la boucle. De petites erreurs se cumulent, et il faut en tenir compte.
Les avancées récentes de 2025-2026
La vague de 2026 voit les modèles de fondation envahir l'entrée du pipeline SLAM. FoundationStereo, présenté il y a deux semaines, réduit la profondeur stéréoscopique en une seule passe d'apprentissage. Cette semaine, deux nouveaux articles — FoundationSLAM en décembre 2025 et Keep It CALM en avril 2026 — poussent la même logique plus loin : un frontal visuel appris, sans calibrage, qui produit des hypothèses de profondeur, de mouvement et de pose, associé à un petit noyau classique qui continue de gérer le graphe de facteurs, car les mathématiques sous-jacentes n'ont pas été améliorées. La vague du lissage gaussien (Gaussian splatting), avec VIGS-SLAM et d'autres, remplace la carte implicite en 3D par des millions de points colorés différentiables. Le graphe de facteurs, lui, reste.
SNGR : traiter les cas d'échec
Une équipe a publié en avril 2026 SNGR, un système qui enveloppe iSAM2 avec un échantillonneur astucieux pour les cas où les hypothèses de confiance gaussiennes standard échouent (SLAM par distance seulement, correspondances ambiguës). C'est le premier article depuis des années qui traite les modes de défaillance du pipeline standard comme un problème central plutôt qu'un cas marginal.
Lighthouses : le SLAM actif pour les robots grand public
Amazon Science a publié une méthode pour ce qu'elle appelle des « phares » : du SLAM actif pour des robots à faible puissance de calcul et à champ de vision étroit, ceux qui entrent dans les foyers plutôt que dans les entrepôts. C'est un résultat plus discret mais plus honnête : la plupart des robots grand public disposent d'un dixième de la puissance de calcul d'un programme humanoïde, et les mathématiques doivent s'adapter en conséquence. Cela amène à se demander s'il existera deux types d'entreprises distincts : l'une grand public et l'autre robotique de service pour les entreprises.