Module 2 : Notation, annotation et analyse de corpus oraux et multimodaux avec CLAN 

Enseignant : Efstathia Soroli

Volume horaire : 6h ; Organisation des séances : 3 séances de 2h

Langue d’enseignement : français

 

Contenu

Dans le cadre de cette formation, nous présenterons le logiciel CLAN et effectuerons des transcriptions, annotations et analyses automatiques de différents types de corpus (données orales, co-verbales/ gestuelles, d’enfants/adultes, monolingues/bilingues etc.). La première séance sera consacrée à la théorie et à la pratique de la transcription (utilité d’une standardisation des pratiques, implications théoriques, nécessité de rendre les données FAIR, partage de bonnes pratiques et de corpus via des « knowledge centres », et mise en pratique avec le logiciel CLAN : insertion des balises temporelles associées à des fichiers média (audio ou vidéo) et transcription de corpus). Lors de la deuxième séance nous aborderons les principes d’une annotation multidimensionnelle (morphosyntaxe, sémantique, pragmatique) et nous verrons les commandes les plus fréquemment utilisées pour une analyse automatique de données annotées (FREQ, COMBO, MOR, MLU, VOCD). Pour finir, la troisième séance sera consacrée à la mise en pratique : transcription et codage de corpus personnels, utilisation des commandes CLAN, exports vers EXCEL (ou autres tableurs) et analyses.

 

Compétences visées

- Apprendre les bases du recueil et du traitement de données.

- Savoir enregistrer, numériser, ‘nettoyer’ son corpus.

- Apprendre les bases d’une annotation morphologique, sémantique, syntaxique et discursive en s’appuyant sur des modèles théoriques récents.

- Capacité à utiliser un outil d’annotation semi-automatique pour la transcription, le codage et le traitement d’un corpus oral et/ou multimodal.

 

 

Bibliographie

Edwards, J. A. (2001). The transcription of discourse. In Schiffrin, D., Tannen, D., Hamilton, H. E. (Eds.), The handbook of discourse analysis (pp. 321–348). Malden, MA: Blackwell.

Johnson, C. E. (2000). What you see is what you get: The importance of transcription for interpreting children's morphosyntactic development. In Menn, L., Ratner, N. B. (Eds.), Methods for studying language production (pp. 181–204). Mahwah, NJ: Lawrence Erlbaum Associates.

MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. Transcription format and programs. Psychology Press.

Müller, N., Damico, J. S. (2002). A transcription toolkit: Theoretical and clinical considerations. Clinical Linguistics and Phonetics, 16(5), 299–316.

Parisse, Ch. & Le Normand (2000). How children build their morphosyntax: The case of children, Journal of Child Language, vol. 27, n 2, p.267-292.

Pavelko, S. L., & Owens, R. E (2017). Sampling utterances and grammatical analysis revised (SUGAR): New normative values for language sample analysis measures. Language, Speech and Hearing services in schools, 48(3), 197-215.

Rice, M. L., Smolik, F., Perpich, D., Thompson, T., Rytting, N., & Blossom, M. (2010). Mean length of utterance levels in 6-month intervals for children 3 to 9 years with and without language impairments. Journal of Speech, Language, and Hearing Research, 53(2), 333–349.

Soroli, E. & Cohen, C. (2018). Bilingual Discourse Analysis (BilDA) project: Research methods in second language acquisition and bilingualism - a manual for transcription, coding and analysis. International Conference on « Cross-lingual analysis and annotation of parallel and comparable corpora: Current and future trends », University Paris Diderot, France, 30 Nov. 2018.

Soroli, E. & Tsikulina, A. (2019). Bilingual Discourse Analysis Manual: a manual for transcription, coding and analysis of bilingual and second language learner’s data. Research report, University of Lille & CORLI HumNum consortium hal-02567511

Soroli, E. Poudat, C. Badin, F., Balvet, A., Delais-Roussarie, E., Etienne C., Ho-Dac L-M., Liégeois, L. & Parisse Ch. (2020). CORLI: The French Knowledge-Centre. CLARIN Annual Conference 2020. 5 Oct. 2020.

Wilkinson, M.D., Dumontier, M., Aalbersberg, I.J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.W., da Silva Santos, L.B., Bourne, P.E. et al. (2016). The FAIR guiding principles for scientific data management and stewardship. Scientific Data 3: 160018.

 

Modalités d’évaluation

Session 1

- Assiduité : 1/3 de la note finale (présence et participation aux 3 séances de cours + exercices en classe)

- Contrôle 1 : 1/3 de la note finale (DM individuel : transcription et codage de données orales)

- Contrôle 2 : 1/3 de la note finale (Oral de 30 min. : examen à distance avec partage d'écran, manipulation du logiciel et exercices).

Session 2 : Oral de 30 min. : examen à distance avec partage d'écran, manipulation du logiciel et exercices.