Hippocampus : un moteur mémoire inspiré du cerveau réduit le coût des RAG de 10×

Un moteur mémoire inspiré du cerveau

Deux développeurs installés à Dubaï ont mis au point un substrat mémoire pour l'intelligence artificielle (IA) directement inspiré du fonctionnement de l'hippocampe. Le système, nommé Hippocampus, repose sur des codes binaires clairsemés : sur 8 192 bits, seulement 40 sont actifs à la fois. Cette architecture, qui imite la manière dont l'hippocampe encode les souvenirs en faisant feu sur un petit nombre de neurones, permet une récupération lexicale sans faire appel à un modèle d’embedding au moment de la requête, éliminant ainsi le coût de cette étape.

Des résultats chiffrés

Les créateurs du système ont comparé Hippocampus à trois autres approches : MiniLM avec filtrage, MiniLM sans filtrage, et BM25. Le critère principal retenu est la précision « sans contradiction » (CF pour contradiction-free), qui n’attribue un point que si la réponse est correcte et qu’aucune affirmation contradictoire n’est introduite. Sur un jeu de test, Hippocampus obtient 90,91 % de CF, contre 77,27 % pour MiniLM filtré et 31,82 % pour BM25. Le nombre de jetons générés par réponse est en moyenne de 12 pour Hippocampus, contre 121 pour MiniLM et 495 pour BM25, soit une réduction d’un facteur dix par rapport à la meilleure des deux autres méthodes.

L’équipe distingue deux types de faits : les faits simples (hors queue de liste) et les faits de queue de liste (qui nécessitent d’extraire un élément dans une énumération). Sur les premiers, Hippocampus atteint 94,74 % de CF (contre 89,47 % pour MiniLM filtré). Sur les seconds, MiniLM filtré tombe à 0 % car son filtre élimine le contexte de la liste, tandis qu’Hippocampus conserve 66,67 % de réussite.

Une méthodologie rigoureuse

Les développeurs affirment appliquer les principes des essais cliniques à leurs expériences : avant chaque série de tests, ils fixent par écrit des critères d’acceptation précis – quels faits doivent être corrigés, quel seuil de régression est toléré, quelle ablation confirme le mécanisme. Ces engagements sont enregistrés avant les résultats. Sur la soixantaine de vérifications ainsi réalisées, environ un tiers a échoué ; chaque échec est daté et sa cause racine documentée. Les auteurs précisent que ces règles empêchent de déplacer les objectifs après coup.

Une regression inattendue et corrigée

Lors d’une expérience récente visant à améliorer l’expansion de requêtes lexicales, l’équipe a enregistré un progrès non planifié sur un fait jusqu’alors hors de portée, mais aussi une régression sur un fait jusqu’alors correct. L’analyse a montré que l’ajout d’un jeton de propriété à une requête déjà bien formulée modifiait le classement interne et faisait perdre le bon résultat. La correction chirurgicale a permis de restaurer toutes les performances et de faire passer le nombre de faits réussis de 37 à 40 sur 44, avec une reproductibilité parfaite (écart type nul sur dix exécutions identiques).

Quatre faits non résolus

L’équipe mentionne quatre faits qu’aucun système testé (Hippocampus, MiniLM, BM25) ne parvient à traiter correctement. Trois partagent la même cause : la requête mentionne un pays ou une institution, mais la réponse correcte est indexée sous un nom de personne sans chemin accessible dans le schéma. Le quatrième est spécifique à Hippocampus : il s’agit d’une requête de citoyenneté impliquant un opérateur temporel (« à la naissance ») que le résolveur n’a pas encore implémenté. Les développeurs précisent qu’un test falsificateur pré-engagé est en préparation pour résoudre ce cas.

Vers une mémoire qui s’améliore avec l’usage

Au-delà de l’efficacité économique – réduire le nombre de jetons –, l’objectif affiché est de construire une couche mémoire pour les agents d’IA qui, comme le cerveau, se renforce avec l’expérience. Les auteurs estiment que les agents actuels « souffrent d’amnésie » entre les sessions et ne peuvent accumuler une expertise sur le long terme. La voie explorée est celle d’un composant qui améliore ses performances par l’usage, sans réentraînement et sans extension de fenêtre de contexte. L’équipe précise que cette promesse n’est pas encore prouvée et qu’elle s’engage à publier les résultats, qu’ils soient positifs ou non.

Un moteur mémoire inspiré de l'hippocampe réduit de 10 fois le coût de requête des systèmes RAG

À lire ensuite

Des pages de panne factices hébergées via les liens de partage de ChatGPT servent à diffuser des logiciels mal...

Quantinuum, soutenu par Honeywell, vise 1,05 milliard de dollars avec son introduction en Bourse

Réseau d'agents chinois aux États-Unis : une enquête inédite dévoile l'ampleur de l'infiltration

La fusée New Glenn de Blue Origin détruite lors d'un essai : un revers majeur pour Amazon et la Nasa