DI-UMONS : Dépôt institutionnel de l’université de Mons

Recherche transversale
Rechercher
(titres de publication, de périodique et noms de colloque inclus)
2014-07-01 - Colloque/Article dans les actes avec comité de lecture - Français - 6 page(s)

Barreca Giulia, Christodoulides George , "Un concordancier multi-niveaux pour des corpus oraux" in 21ème Conférence Traitement Automatique du Langage Naturel (TALN), 499-504, Marseille, France, 2014

  • Codes CREF : Informatique appliquée logiciel (DI2570), Linguistique générale (DI5310)
Texte intégral :

Abstract(s) :

(Anglais) Concordances have always played an important role in the analysis of language corpora, for studies in humanities, literature, linguistics, translation and language teaching. However, very few of the available systems support multi-level queries against a richly-annotated, sound-aligned spoken corpus. The rapid growth in the development of spoken corpora, particularly for French, increases the need for scalable, high-performance solutions. We present the preliminary results of our project to develop a multi-level multimedia concordancer for spoken language corpora. We test our prototype on the PFC corpus of spoken French (1.5 million tokens, transcriptions aligned to the utterance level). Our tool allows researchers to query the corpus and produce concordances correlating several annotation levels (part-of-speech tags, lemmas, annotation of phonological phenomena such as the liaison and schwa, etc.) while allowing for multi-modal access to the associated sound recordings and other data.

(Français) Les concordanciers jouent depuis longtemps un rôle important dans l’analyse des corpus linguistiques, tout comme dans les domaines de la philologie, de la littérature, de la traduction et de l’enseignement des langues. Toutefois, il existe peu de concordanciers qui soient capables d’associer des annotations à plusieurs niveaux et synchronisées avec le signal sonore. L’essor des grands corpus de français parlé introduit une augmentation des exigences au niveau de la performance. Dans ce travail à caractère préliminaire, nous avons développé un prototype de concordancier multi-niveaux et multimédia, que nous avons testé sur le corpus de français parlé du projet Phonologie du Français Contemporain (PFC, 1,5 million de tokens de transcription alignée au niveau de l’énoncé). L’outil permet non seulement d’enrichir les résultats des concordances grâce aux données relevant de plusieurs couches d’annotation du corpus (annotation morphosyntaxique, lemme, codage de la liaison, codage du schwa etc.), mais aussi d’élargir les modalités d’accès au corpus.