EvalLLM2025 : Atelier sur l'évaluation des modèles génératifs (LLM) et challenge

30-30 juin 2025

L'atelier se tiendra à Marseille, sur le campus de Saint-Charles, en marge des conférences CORIA-TALN 2025 - Marseille (France)

https://evalllm2025.sciencesconf.org

Les grands modèles de langue (LLM) génératifs se démocratisent et s'intègrent dans des chaines de traitements de plus en plus complexes, offrant une grande variété de cas d'usage. L'évaluation de ces objets protéiformes pose cependant des problèmes sérieux : les benchmarks existants sont largement anglo-centrés (aussi bien en terme de langue que de culture), parfois eux-mêmes issus de LLM anglo-centrés (benchmarks synthétiques), et ne couvrent pas forcément l'ensemble des usages. La question de leur évaluation se pose donc en particulier pour le français et plus généralement pour des langues autres que l'anglais. Cette proposition d'atelier s'inscrit dans la continuité de l'édition de 2024. Celle-ci avait permis de réunir jusqu'à 60 personnes au plus fort de la journée pour écouter un orateur invité et 11 présentations sélectionnées sur appel à soumission. Son programme complet est disponible sur https://evalllm2024.sciencesconf.org/ Présentation Dans cet atelier, nous proposons de réunir les chercheuses et chercheurs, industriels et académiques, s'intéressant aux multiples facettes de l'évaluation des LLM sur des domaines de spécialité ou sur des langues autres que l'anglais. L'atelier sera construit autour d'une présentation invitée et de présentations de travaux sélectionnés suite à un appel à communications portant sur tous les travaux relevant de ce périmètre. Cela inclut notamment les recherches concernant : - l'évaluation de modèles de fondation, fine-tunés ou de systèmes complets (RAG par exemple) - la création ou adaptation de benchmarks, pour du français ou autres langues d'intérêt, qu'elles soient bien ou peu dotées, en domaine général ou spécialisé, ou pour des langues bruitées ou non standard (eg. réseaux sociaux, commandes vocales...) - l'évaluation sur des tâches de TAL (traduction, résumé, extraction d'information...) - l'adaptation des méthodologies d'évaluation existantes aux systèmes génératifs - les dimensions éthiques, biais, privacy, alignement culturel ou législatif - les dimensions de performances en temps de calcul, mémoire, frugalité énergétique - l'évaluation avec des utilisateurs, ergonomie, aspects cognitifs - l'évaluation de modèles multimodaux (eg. texte-image, texte-parole...) - ...

Discipline scientifique : Intelligence artificielle - Multimédia - Réseau de neurones - Traitement du texte et du document

Lieu de la conférence