Science Participative pour les Données et Corpus Linguistiques / Crowd-sourced Linguistic Data Collection and Augmentation

30-30 juin 2025

Campus de Saint-Charles - Marseille (France)

https://parcol.sciencesconf.org

La construction participative de jeux de données linguistiques et leur constitution en corpus participatifs, c’est-à-dire en données structurées et/ou augmentées par la société civile, sont aujourd’hui utilisés dans une variété de projets avec une grande diversité de buts, allant de la visée patrimoniale de recensement et de conservation des langues à l’entraînement de technologies du langage. Ces données et corpus participatifs semblent résoudre un certain nombre de défis qui se posent à la communauté scientifique quand elle constitue ses propres corpus : défis scientifiques (adéquation des données avec la question de recherche), logistiques (recrutement des participants- participantes, des annotateurs-annotatrices), éthiques (protocole de récolte, propriété et diffusion des données), financiers (rémunération du personnel, achat de matériel), et humains (temps et énergie dépensées par les personnes impliquées). Pourtant, ils suscitent eux aussi des interrogations d’ordre technique, scientifique et éthique qui leur sont propres. Cet atelier, organisé avec le soutien du groupe de recherche Linguistique Informatique, Formelle et de Terrain (LIFT-2), vise à explorer ces questionnements dans le cadre d’un dialogue entre les communautés du TAL, celles de la linguistique formelle et celles de la linguistique de terrain. L’atelier aura lieu en deux temps : une demi-journée sera consacrée à des présentations par des conférenciers-conférencières invitées (grâce au soutien de LIFT-2) et par des intervenantes- intervenants sélectionnés sur proposition, et une demi-journée sera consacrée à un datathon (contribution à diverses plateformes participatives). Les propositions, en français ou en anglais, pourront se concentrer sur les thèmes suivants (liste non-exhaustive) : • le développement ou le fonctionnement d’outils de science participative (plateformes de récolte, jeux avec un but, etc.) dédiés aux langues, • les défis techniques des plateformes de récolte de données ou métadonnées participatives, • les questions éthiques soulevées par la création ou l’utilisation de corpus participatifs, • l’engagement des participantes-participants (motivations, nudges, ludification...), • la science participative dans le contexte de langues peu dotées, • la science participative au service de l’exploration de l’oralité et de la pluralité des usages, • les enjeux théoriques des données et corpus participatifs, • les enjeux politiques ou législatifs des données et corpus participatifs, • des résultats de recherche sur des données participatives, toutes disciplines linguistiques confondues.

Discipline scientifique : Informatique - Linguistique

Lieu de la conférence