Une bibliothèque open source dénommée Clark Hash, développée par Clark Labs Inc, vient d’être présentée sur une plateforme de partage technique. Elle propose une méthode de compression radicale pour les « embeddings » (plongements vectoriels) de texte, ces représentations numériques qui permettent aux algorithmes de comparer le sens de mots ou de phrases.
Selon le descriptif technique publié, Clark Hash convertit des vecteurs de 384 dimensions en virgule flottante 32 bits (f32) – qui occupent habituellement 1 536 octets – en des « esquisses » (sketches) de seulement 48 octets, soit une réduction d’un facteur 32. Cette compression s’effectue « sans calibration », c’est-à-dire sans nécessiter d’échantillonnage préalable des données.
L’objectif affiché est de permettre le traitement de données textuelles à l’échelle du pétaoctet (soit un million de milliards d’octets) de manière purement en ligne, c’est-à-dire sans devoir stocker l’intégralité des vecteurs. La méthode proposée serait capable de maintenir une capacité de recherche par similarité sémantique malgré la forte réduction de taille.
Genèse technique Le projet indique avoir été conçu à l’aide d’un modèle de langage (dit « GPT5.5-Pro ») et d’un processus de recherche automatisée (« autoresearch »). Cette mention suggère que l’architecture de la bibliothèque a été en partie générée ou optimisée par intelligence artificielle, bien que les détails exacts de cette approche ne soient pas précisés dans la source.
Implications pour le traitement de masse Si les performances annoncées sont confirmées par la communauté technique, Clark Hash pourrait réduire considérablement l’infrastructure nécessaire pour indexer de très grands corpus de textes – archives web, bases documentaires, logs de conversation – tout en conservant une fonctionnalité de recherche par similarité. L’absence de phase de calibration simplifierait également le déploiement sur des flux de données continus.
Cependant, aucun banc d’essai indépendant ni comparaison chiffrée avec d’autres méthodes de compression d’embeddings (telles que l’hachage localité-sensible, LSH, ou les approches par quantification) n’est fourni dans l’annonce initiale. La communauté technique est donc invitée à tester la bibliothèque et à évaluer la qualité de la recherche par similarité obtenue après compression.
Disponibilité et accès Le code source de Clark Hash est hébergé sur la plateforme de développement GitHub. Aucune information n’a encore été communiquée sur une éventuelle publication académique ou une documentation détaillée. Le projet semble pour l’instant au stade de démonstration conceptuelle (« Show HN »).
La réduction de la taille des vecteurs de 32 fois – de 1 536 à 48 octets – représente, si elle est validée, une avancée notable pour le traitement de très grands volumes de données textuelles en temps réel. Les prochains retours d’utilisateurs et les éventuels benchmarks permettront de juger de la robustesse et de la précision de l’approche proposée.