Science Participative pour les Données et Corpus Linguistiques / Crowd-sourced Linguistic Data Collection and Augmentation
30-30 juin 2025
Campus de Saint-Charles - Marseille (France)
La construction participative de jeux de données linguistiques et leur constitution en corpus
participatifs, c’est-à-dire en données structurées et/ou augmentées par la société civile, sont
aujourd’hui utilisés dans une variété de projets avec une grande diversité de buts, allant de la visée
patrimoniale de recensement et de conservation des langues à l’entraînement de technologies du
langage.
Ces données et corpus participatifs semblent résoudre un certain nombre de défis qui se
posent à la communauté scientifique quand elle constitue ses propres corpus : défis scientifiques
(adéquation des données avec la question de recherche), logistiques (recrutement des participants-
participantes, des annotateurs-annotatrices), éthiques (protocole de récolte, propriété et diffusion
des données), financiers (rémunération du personnel, achat de matériel), et humains (temps et
énergie dépensées par les personnes impliquées). Pourtant, ils suscitent eux aussi des interrogations
d’ordre technique, scientifique et éthique qui leur sont propres.
Cet atelier, organisé avec le soutien du groupe de recherche Linguistique Informatique,
Formelle et de Terrain (LIFT-2), vise à explorer ces questionnements dans le cadre d’un dialogue
entre les communautés du TAL, celles de la linguistique formelle et celles de la linguistique de
terrain. L’atelier aura lieu en deux temps : une demi-journée sera consacrée à des présentations par
des conférenciers-conférencières invitées (grâce au soutien de LIFT-2) et par des intervenantes-
intervenants sélectionnés sur proposition, et une demi-journée sera consacrée à un datathon
(contribution à diverses plateformes participatives). Les propositions, en français ou en anglais,
pourront se concentrer sur les thèmes suivants (liste non-exhaustive) :
• le développement ou le fonctionnement d’outils de science participative (plateformes de
récolte, jeux avec un but, etc.) dédiés aux langues,
• les défis techniques des plateformes de récolte de données ou métadonnées participatives,
• les questions éthiques soulevées par la création ou l’utilisation de corpus participatifs,
• l’engagement des participantes-participants (motivations, nudges, ludification...),
• la science participative dans le contexte de langues peu dotées,
• la science participative au service de l’exploration de l’oralité et de la pluralité des usages,
• les enjeux théoriques des données et corpus participatifs,
• les enjeux politiques ou législatifs des données et corpus participatifs,
• des résultats de recherche sur des données participatives, toutes disciplines linguistiques
confondues.
Discipline scientifique :
Informatique - Linguistique
Lieu de la conférence