AgingBench : un nouveau banc d’essai pour mesurer la fiabilité des agents IA dans le temps
Le benchmark AgingBench, développé par l’Université du Texas à Austin, mesure la fiabilité des agents d’IA après déploie...
Le benchmark AgingBench, développé par l’Université du Texas à Austin, mesure la fiabilité des agents d’IA après déploie...
Le programme Rx Kids, qui verse sans condition 1 500 dollars en cours de grossesse puis 500 dollars par mois, a réduit d...
Le projet open source LLM Inquisitor propose d'évaluer les grands modèles de langage en observant leur comportement lors...
La sonde Psyche de la NASA a réussi son survol de Mars et se dirige vers l'astéroïde métallique éponyme, selon l'agence...
Un preprint publié sur Zenodo formalise l'observation de comportements émergents dans les interactions homme-IA prolongé...
Découvert en Crète en 1908, le disque de Phaistos est un artefact minoen en terre cuite portant une inscription en spira...
Un recensement de 27 partenariats entre laboratoires pharmaceutiques et fournisseurs de LLM montre qu’Anthropic/Claude d...
Un site web propose de tester la latence et la durée d'appui des claviers via des tests de réaction et de frappe rythmée...
L'épisode de forte chaleur en France a déjà conduit à la chute de plus d'un millier de records de température mensuels....
Le laboratoire national d'Argonne lance un service d'inférence IA privé pour les chercheurs, utilisant la capacité excéd...
L'équipe MacCody a tenté de bâtir un contrôleur robotique classique à l'aide d'agents de code pour le défi AI for Indust...
Une étude du Consortium pour l'évaluation de la foi et de l'éthique dans l'IA (CEFE-AI) montre que les principaux modèle...