Une innovation pour l’exploration de documents par IA

La startup PageIndex a dévoilé un nouveau système de fichiers conçu pour permettre aux grands modèles de langage (LLM) d’effectuer un raisonnement structuré sur un corpus de documents. Présenté comme une « arborescence au niveau des fichiers », ce système vise à combler une lacune des modèles d’IA actuels, qui peinent souvent à traiter de grands volumes de textes non structurés.

Fonctionnement de l’arborescence

Le système, baptisé PageIndex Filesystem, organise les documents sous forme d’une arborescence dont chaque nœud représente un fichier ou un dossier. Cette structure permet au LLM de parcourir les données de manière hiérarchique, en se concentrant d’abord sur les résumés ou les métadonnées avant d’accéder au contenu détaillé. Selon les informations publiées par PageIndex, cette méthode réduit la charge cognitive du modèle et améliore la précision des réponses lorsqu’il s’agit de questions transversales ou comparatives.

Avantages pour les utilisateurs

Contrairement aux approches classiques qui consistent à découper le texte en morceaux (chunks) ou à utiliser des index plats, l’arborescence permet de conserver la relation sémantique entre les documents. PageIndex indique que les premiers tests montrent une amélioration significative de la capacité du LLM à retrouver des informations dispersées dans plusieurs documents, ainsi qu’à synthétiser des thèmes communs. Cette approche pourrait être particulièrement utile pour les équipes juridiques, les chercheurs ou les analystes financiers qui doivent traiter de grandes bibliothèques de documents.

Implications techniques

Le système exploite les API des LLM existants, mais optimise les requêtes en les redirigeant d’abord vers les niveaux supérieurs de l’arborescence. PageIndex précise que l’architecture est conçue pour être compatible avec les modèles les plus répandus, sans nécessiter de fine-tuning spécifique. La société a également souligné que la structure des fichiers peut être personnalisée en fonction du corpus, chaque dossier pouvant correspondre à une thématique, une période ou un type de document.

Disponibilité et perspectives

Pour l’instant, le PageIndex Filesystem est présenté comme un outil expérimental, mais la startup envisage de le proposer comme service cloud ou solution intégrée pour les entreprises. Aucune date de lancement commercial n’a toutefois été annoncée. L’équipe de PageIndex continue de travailler sur des optimisations, notamment pour réduire la latence lors de la navigation dans de très gros corpus.

Les observateurs du secteur notent que cette initiative s’inscrit dans une tendance plus large visant à améliorer l’interaction entre les LLM et les bases de connaissances structurées. Si le système tient ses promesses, il pourrait offrir une alternative efficace aux méthodes de retrieval augmented generation (RAG) actuelles.