L’évaluation des LLMs est-elle morte ?
L'évaluation des LLMs via benchmarks classiques est en crise, car les modèles déjouent les tests, les datasets saturent, le RLHF progresse et les agents autonomes se développent. Il faut se concentrer sur la robustesse, la généralisation et le comportement réel.
Soutenez Ippon Technologies en consultant la ressource originale
Lire l'article original