Le fonds d'investissement Powerset, spécialisé dans le capital-risque, a annoncé la mise à disposition gratuite d'une base de données publique issue de GitHub, destinée à aider ses propres sociétés de portefeuille — et désormais tout recruteur ou agent logiciel — à repérer les développeurs open source les plus talentueux. Baptisé « Powerset Research Data », l'ensemble couvre environ 400 000 dépôts actifs et contient des informations sur les contributeurs, l'activité des projets, le nombre d'étoiles, les langages de programmation et les métadonnées associées.

Deux modes d'accès au service

Powerset propose deux façons d'interroger cette masse de données. La première passe par un point d'accès MCP (Model Context Protocol), compatible avec des assistants comme Claude (Anthropic), Codex (OpenAI) ou Cursor. Les utilisateurs peuvent alors poser des questions en langage naturel — par exemple « trouve les cinq architectes système les plus impressionnants de San Francisco » ou « qui sont les meilleurs profils pour ce poste ? » en joignant une description de poste. Une application dédiée est également disponible pour ChatGPT.

La seconde méthode permet aux développeurs d'interroger directement le jeu de données via DuckDB, en utilisant une instance DuckLake hébergée. Powerset fournit toutes les instructions pour connecter son propre environnement à cette source, ainsi qu'un fichier de compétences (skill) détaillant le schéma, les motifs de requête et des exemples. Aucun identifiant n'est requis pour accéder aux informations.

Technologie et infrastructure

L'infrastructure derrière ce service repose sur une tâche planifiée quotidienne exécutée via Modal, un service de calcul serverless. Les données sont publiées sous forme d'instance « frozen DuckLake », sauvegardée dans des fichiers Parquet hébergés sur Cloudflare R2. Cela permet à la fois une interrogation via le point d'accès MCP hébergé par Powerset et une connexion directe depuis DuckDB.

Powerset précise que ce jeu de données est déjà utilisé en interne pour aider les fondateurs de ses sociétés de portefeuille à identifier et recruter les meilleurs développeurs open source. En le rendant librement accessible, le fonds espère faciliter la tâche de l'ensemble de l'écosystème technologique. L'entreprise a également publié le code source et la documentation complète sur GitHub, dans un dépôt dédié nommé « research-data ».

Un outil pour les agents et les recruteurs

Au-delà du recrutement humain, Powerset souligne que la base est conçue pour être exploitée par des agents logiciels autonomes. L'interface MCP permet à des agents comme Claude Code de naviguer dans les données sans intervention humaine, ouvrant la voie à des processus de sourcing automatisés. Parmi les exemples de questions possibles, l'entreprise cite également la recherche des agents de codage en terminal connaissant la croissance la plus rapide.

La publication intervient alors que la compétition pour attirer les développeurs de très haut niveau s'intensifie dans le secteur technologique. En mettant à disposition gratuitement une source de données jusqu'ici réservée à un usage interne, Powerset se positionne comme un facilitateur de l'innovation ouverte, tout en renforçant indirectement son propre écosystème de startups.

Accès libre et implications

Aucune barrière financière n'est imposée : les données sont librement accessibles, sans création de compte ni abonnement. Powerset encourage les développeurs, recruteurs et fondateurs à les utiliser pour « identifier les ingénieurs hors normes » (cracked engineers) — une expression qui traduit la quête de talents exceptionnels dans le domaine du génie logiciel.

Cette initiative pourrait également intéresser les chercheurs et analystes qui étudient les dynamiques des communautés open source, les tendances des langages de programmation ou la santé des projets. La mise à disposition quotidienne garantit une fraîcheur des informations, tandis que la structure en Parquet permet des analyses volumineuses sans nécessiter d'infrastructure lourde.

Powerset Research, le laboratoire du fonds, a signé cette publication sous les noms de Patrick DeVivo et Jake Zeller, sans autre précision sur leur rôle exact. L'entreprise ayant son siège aux États-Unis, les données sont susceptibles d'être soumises aux réglementations locales en matière de protection des données, bien que Powerset n'ait pas communiqué de détails spécifiques à ce sujet.