Étudiants en RDC travaillant sur des ordinateurs pour l'analyse de corpus linguistiques.

Récolte et traitement de corpus

Extraction et structuration des données textuelles en masse.

Édition 2026 – Réforme LMD – Enseignement supérieur et universitaire en RDC.

Code Officiel : RTC2111
Domaine : Lettres, Langues et Arts
Filière : Lettres et Sciences Humaines
Mention : Lexicographie, Terminologie et Traitement Automatique de Corpus
Année d’étude : Master 1
Semestre : Semestre 1

Consulter les Modalités, Compétences et Débouchés

Cette Unité d’Enseignement, valorisée à hauteur de 3 crédits ECTS, s’articule autour de l’Élément Constitutif central intitulé Techniques de récolte des données. Ce dernier, représentant 1.5 crédits, constitue le socle fondamental des apprentissages dispensés et structure l’ensemble du parcours pédagogique de l’UE.

L’objectif est de doter les apprenants d’une maîtrise complète de la chaîne de traitement des données textuelles. Ils apprendront à concevoir des protocoles de collecte de données robustes, que ce soit pour des corpus web massifs ou des enquêtes de terrain. Ils seront ensuite formés à l’utilisation d’outils d’étiquetage et d’annotation automatique, avant de pouvoir exploiter des bases de données textuelles pour en extraire des informations structurantes, transformant ainsi la donnée brute en connaissance actionnable.

Cette formation prépare directement à des métiers d’avenir tels que Linguiste de corpus, Data Analyst textuel et Développeur d’outils d’extraction lexicale. Sur le marché de l’emploi en République Démocratique du Congo, ces profils sont d’une importance stratégique. Ils sont en effet essentiels pour accompagner la transformation numérique, en permettant l’analyse de vastes corpus de données locales et en développant des solutions technologiques adaptées à la riche diversité linguistique congolaise, créant ainsi une valeur ajoutée unique pour les entreprises et les institutions.

PRÉLIMINAIRES

I. Objectifs Pédagogiques et Compétences Visées

Acquisition d’une maîtrise technique des chaînes de collecte et de structuration de données textuelles massives. L’étudiant sera capable de concevoir et de piloter un protocole de récolte de corpus, que ce soit par extraction web (scraping, API) ou par enquête de terrain. Les compétences développées sont directement alignées sur les besoins des métiers de linguiste de corpus et d’analyste de données textuelles, préparant à la valorisation du patrimoine linguistique et informationnel de la RDC.

II. Positionnement de l’UE dans le Cursus LMD

Cette Unité d’Enseignement (UE) constitue le socle technique du Master. Elle précède et alimente les UE de traitement automatique des langues, de lexicographie computationnelle et de sémantique de corpus. En fournissant la matière première (le corpus propre et structuré), elle conditionne la réussite de l’ensemble des projets de recherche et de développement de la mention, assurant que l’étudiant ne soit pas un simple utilisateur d’outils, mais un architecte de ressources linguistiques.

III. Méthodologie d’Évaluation

Évaluation axée sur la démonstration de compétences pratiques. Elle se compose d’un projet de constitution de corpus (60%) et d’un examen sur table (40%). Le projet impose à l’étudiant de définir une problématique (ex: analyse du discours politique congolais en ligne), de collecter un corpus pertinent via les techniques enseignées, de le nettoyer et de le documenter. L’examen vérifie la maîtrise théorique des protocoles, des architectures et des enjeux éthiques.

PARTIE 1 : FONDEMENTS ET STRATÉGIES DE COLLECTE DE CORPUS

Chapitre I. Épistémologie du Corpus et Protocoles de Conception

I.1 Rupture épistémologique et paradigme attestationniste

Rupture fondamentale avec la linguistique introspectionniste, la linguistique de corpus fonde ses analyses exclusivement sur des données attestées. Cette approche empirique permet d’objectiver l’étude des faits de langue, en passant de l’exemple forgé à l’observation de régularités sur de grands volumes. Pour la RDC, cela signifie pouvoir analyser la variation réelle du lingala de Kinshasa ou les néologismes dans la presse de Lubumbashi, en se basant sur des preuves tangibles et quantifiables.

I.2 Typologie et architecture des corpus

Selon leur finalité, les corpus se déclinent en multiples architectures : corpus de référence, spécialisés, diachroniques, synchroniques, parallèles ou comparables. La maîtrise de cette typologie est cruciale pour définir un projet. Un corpus parallèle français-swahili sera un outil pour la traduction automatique, tandis qu’un corpus diachronique des discours d’investiture présidentielle en RDC permettra d’étudier l’évolution des rhétoriques du pouvoir depuis l’indépendance.

I.3 Le protocole de conception d’un corpus

Toute constitution de corpus viable repose sur un protocole rigoureux définissant la problématique, les sources, la taille visée, les critères d’échantillonnage et la structure des métadonnées. Ce document garantit la cohérence scientifique et la réutilisabilité de la ressource. L’étudiant apprendra à rédiger un tel protocole pour un projet concret, par exemple la création d’un corpus sur la terminologie du secteur minier artisanal dans le Grand Kivu.

I.4 Enjeux juridiques et éthiques de la collecte

Face aux impératifs de confidentialité et de propriété intellectuelle, la collecte de données textuelles est encadrée par des règles strictes. Ce sous-chapitre aborde le droit d’auteur, le respect de la vie privée (anonymisation) et le consentement éclairé, particulièrement dans le cadre de la collecte de données orales. L’étudiant saura comment construire un corpus de témoignages ou de conversations privées en RDC tout en respectant la dignité et les droits des informateurs.

Chapitre II. Techniques d’Extraction de Données Textuelles Numériques

II.1 Aspiration de contenu web (Web Scraping)

Technique d’extraction automatisée de contenu depuis des sites web, le scraping est la méthode reine pour constituer des corpus à partir de sources ouvertes. L’étudiant manipulera des outils (Python avec Scrapy/BeautifulSoup) pour cibler, extraire et structurer l’information textuelle. L’application directe en RDC est la constitution de corpus de presse en temps réel à partir de sites comme actualite.cd ou Radio Okapi pour des analyses sociopolitiques ou médiatiques.

II.2 Exploitation des Interfaces de Programmation (API)

Sous l’angle de la structuration, les API offrent un accès plus propre et plus légal aux données que le scraping. Ce module forme à l’utilisation d’API de réseaux sociaux (Twitter), de plateformes médiatiques (The Guardian) ou de portails gouvernementaux pour récolter des données déjà formatées. L’étudiant pourra ainsi construire un corpus sur les débats autour de la gratuité de l’enseignement en RDC en exploitant les flux de données publics.

II.3 Corpus issus des médias sociaux et plateformes participatives

Une connaissance fine des dynamiques conversationnelles et des spécificités linguistiques (abréviations, émojis, interférences codiques) est requise pour exploiter les textes des médias sociaux. Ce cours se focalise sur les méthodes de collecte et de pré-traitement de ces données bruitées. L’objectif est de rendre l’étudiant capable d’analyser le français populaire kinois ou l’usage du swahili sur les pages Facebook congolaises, des gisements linguistiques majeurs.

II.4 Nettoyage, normalisation et dédoublonnage des données brutes

Indispensable post-extraction, le nettoyage transforme un amas de textes bruts en un corpus exploitable. Ce volet technique couvre les opérations de suppression des balises HTML, de normalisation de la ponctuation et des caractères, d’uniformisation de la casse et de détection des doublons. L’étudiant apprendra à appliquer des scripts pour garantir la propreté d’un corpus collecté, condition sine qua non de la fiabilité de toute analyse ultérieure.

Chapitre III. Collecte de Corpus en Contexte Multilingue et sur le Terrain

III.1 Protocoles d’enquête et d’enregistrement pour corpus oraux

En l’absence de sources numériques suffisantes, notamment pour les langues congolaises moins dotées, l’enquête de terrain est incontournable. Ce sous-chapitre détaille la méthodologie de collecte de données orales : sélection des informateurs, techniques d’entretien (dirigé, semi-dirigé), matériel d’enregistrement et gestion des métadonnées contextuelles. L’étudiant sera préparé à documenter une langue menacée dans la province de l’Équateur ou les pratiques langagières d’un groupe socioprofessionnel.

III.2 Transcription, alignement et annotation de l’oral

Le défi majeur de la valorisation des sources orales est leur transformation en texte exploitable. Ce module aborde les conventions de transcription (verbatim, normalisée), l’utilisation de logiciels d’aide à la transcription (ELAN) et les techniques d’alignement texte-son. L’étudiant apprendra à créer une ressource où chaque mot transcrit est synchronisé avec l’audio, une base essentielle pour la phonétique, la sociolinguistique ou la reconnaissance vocale du tshiluba.

III.3 Gestion de corpus multilingues : corpus parallèles et comparables

La réalité linguistique de la RDC, marquée par le multilinguisme, impose la maîtrise des corpus non-monolingues. Ce cours distingue les corpus parallèles (textes et leurs traductions, ex: lois en français et swahili) des corpus comparables (textes de même genre dans différentes langues). L’étudiant saura comment constituer et structurer ces ressources pour des applications en traduction, en didactique des langues ou en analyse contrastive des discours.

III.4 Stratégies d’échantillonnage et constitution de corpus équilibrés

Principe cardinal de la linguistique de corpus, l’équilibre garantit que la ressource est représentative du phénomène linguistique étudié. Ce module enseigne les techniques d’échantillonnage stratifié pour équilibrer un corpus selon des critères externes (période, type de source, région). L’étudiant saura comment éviter les biais de collecte pour construire, par exemple, un corpus du français congolais qui reflète la diversité des usages et non uniquement celui de l’élite de la Gombe.

PARTIE 2 : MÉTHODOLOGIES ET OUTILS DE COLLECTE ET DE STRUCTURATION

Chapitre V. Protocoles de Collecte Active : Web Scraping et Enquêtes de Terrain

V.1 Stratégies de Web Scraping pour les Langues Congolaises

Face à la sous-représentation numérique des langues nationales, le web scraping ciblé devient une compétence stratégique. Cette section détaille l’ingénierie de scripts Python (via Scrapy, BeautifulSoup) pour extraire automatiquement des corpus textuels depuis les sites d’actualités (Actualite.cd, MediaCongo), les forums et les réseaux sociaux. L’accent est mis sur la gestion des encodages et la capture des variations dialectales du lingala, du swahili, du tshiluba et du kikongo, constituant ainsi des ressources primaires pour l’analyse sociolinguistique.

V.2 Conception de Grilles d’Enquête pour la Collecte Orale

Ancrée dans les principes de la sociolinguistique de terrain, cette approche vise la constitution de corpus oraux de haute qualité. L’étudiant apprend à élaborer des protocoles d’enquête pour recueillir des données spécifiques : terminologies minières artisanales au Katanga, récits de vie dans le Kivu ou néologismes urbains à Kinshasa. La maîtrise des techniques d’enregistrement, des protocoles de consentement éclairé et des premières étapes de transcription est ici une compétence fondamentale, assurant la validité éthique et scientifique du corpus.

V.3 Utilisation des API pour l’Accès aux Données Structurées

Alternative au scraping direct, l’exploitation des Interfaces de Programmation Applicative (API) offre un accès légal et structuré à des gisements de données. Ce module se concentre sur l’interrogation d’API (Twitter, plateformes d’actualités) pour collecter des métadonnées riches (géolocalisation, date, auteur) associées au texte. L’application directe est la cartographie en temps réel de l’opinion publique ou le suivi de la diffusion d’informations, des compétences clés pour les analystes de données et les veilleurs stratégiques en RDC.

V.4 Éthique et Droit de la Donnée en Contexte RDC

Indissociable de toute collecte, la dimension éthique et juridique est ici traitée avec rigueur. L’étudiant analyse les cadres légaux sur la protection des données personnelles, même embryonnaires en RDC, et les transpose en bonnes pratiques. Sont abordées les techniques d’anonymisation des sources, la gestion du droit d’auteur sur les contenus collectés et la responsabilité du linguiste-collecteur face aux données sensibles, notamment dans les contextes de conflit, garantissant une pratique professionnelle et responsable.

Chapitre VI. Nettoyage, Normalisation et Structuration des Données Textuelles

VI.1 Techniques de Pré-traitement : Tokenisation et Suppression des Mots Vides

Une fois le corpus brut assemblé, sa transformation en ressource exploitable commence. La tokenisation, ou segmentation du texte en unités (mots, phrases), est adaptée aux spécificités des langues congolaises, incluant les formes agglutinantes. La constitution de listes de “mots vides” (stop words) personnalisées pour le lingala ou le français de Kinshasa est une étape critique pour ne pas biaiser les futures analyses statistiques, permettant de faire émerger le lexique réellement porteur de sens.

VI.2 Normalisation Lexicale et Gestion de la Variation Orthographique

Problématique centrale des langues congolaises à l’écrit, la variation orthographique massive (“mbote”, “mbote”, “mbote na yo”) est adressée par des techniques de normalisation. L’étudiant implémente des algorithmes de regroupement basés sur des dictionnaires de variantes ou des distances phonétiques. Cette compétence est cruciale pour toute application de recherche d’information ou d’analyse de fréquence, car elle permet de quantifier un concept unique malgré ses multiples graphies dans les corpus bruts.

VI.3 Structuration des Données via XML et JSON

Au-delà du texte brut, la structuration en formats lisibles par machine comme XML ou JSON est la clé de la réutilisabilité. Ce sous-chapitre enseigne l’encodage du texte et de ses métadonnées (source, auteur, date, genre textuel) selon des schémas standardisés (type TEI-Lite). L’étudiant sera capable de transformer une collection de fichiers textes hétérogènes en une base de données linguistique cohérente et interrogeable, prête pour l’analyse outillée ou l’archivage pérenne.

VI.4 Détection et Traitement des Entités Nommées (NER) de Base

Isoler les informations clés telles que les noms de personnes, de lieux ou d’organisations est une première étape vers l’extraction de sens. Ce module introduit les principes de la reconnaissance d’entités nommées (NER) via des approches basées sur des dictionnaires (gazetteers) et des expressions régulières. L’application directe en RDC est l’identification automatique des acteurs politiques, des entreprises minières ou des localités dans des dépêches de presse, compétence à haute valeur ajoutée pour la veille économique et la sécurité.

Chapitre VII. Fondamentaux de l’Annotation de Corpus : Étiquetage et Lemmatisation

VII.1 Principes de l’Étiquetage Morpho-syntaxique (POS Tagging)

Fondement de l’analyse syntaxique, l’étiquetage des parties du discours (POS) consiste à assigner une catégorie grammaticale (nom, verbe, adjectif…) à chaque mot du corpus. L’enjeu est de comprendre les limites des étiqueteurs existants, souvent entraînés sur du français standard, et de développer des guides d’annotation spécifiques pour les particularités du français congolais ou les structures des langues bantoues. Cette compétence permet de préparer le terrain pour des analyses syntaxiques et stylistiques fines.

VII.2 Lemmatisation vs. Racinisation : Stratégies pour les Langues Bantoues

Distincte de la racinisation (stemming) qui tronque les mots, la lemmatisation vise à ramener un mot à sa forme canonique (le lemme). Ce module démontre l’inefficacité du stemming pour les langues bantoues et leur morphologie complexe à préfixes et infixes. L’étudiant apprend à utiliser ou concevoir des lemmatiseurs adaptés, un prérequis indispensable pour des calculs de fréquence lexicale fiables ou pour la construction de dictionnaires terminologiques à partir de corpus.

VII.3 Outils d’Annotation Manuelle et Semi-automatique (Brat, Doccano)

La mise en pratique de l’annotation repose sur des outils spécialisés qui optimisent le travail humain. Ce volet forme à la maîtrise de plateformes open-source comme Brat ou Doccano pour des projets d’étiquetage collaboratifs. L’étudiant apprend à configurer un projet d’annotation (définir les étiquettes, importer les textes) et à utiliser l’interface pour produire de manière efficiente un corpus enrichi, directement utilisable pour entraîner des modèles d’apprentissage automatique.

VII.4 Calcul de l’Accord Inter-Annotateurs (Kappa de Cohen)

Pour garantir la fiabilité et la valeur scientifique d’un corpus annoté manuellement par plusieurs personnes, la mesure de la consistance est non négociable. Ce sous-chapitre enseigne le calcul et l’interprétation de coefficients d’accord inter-annotateurs, notamment le Kappa de Cohen. Savoir quantifier la reproductibilité de son schéma d’annotation est la marque d’un travail de standard international, indispensable pour la publication de résultats de recherche ou la création de données de référence.

ANNEXES

A. Guide Pratique : Initialiser un Projet de Scraping avec Scrapy

Face à la nécessité d’automatiser la collecte de données textuelles pour analyser, par exemple, l’évolution du lexique dans la presse en ligne de Kinshasa, ce guide fournit un protocole technique. Il détaille la configuration d’un environnement Python, l’installation de la bibliothèque Scrapy et la structuration d’un premier “spider” (robot d’exploration). L’étudiant apprend à définir les cibles, à extraire les balises HTML pertinentes et à exporter les résultats dans un format structuré (JSON, CSV), obtenant un corpus brut prêt pour le traitement.

B. Charte Éthique et Juridique pour la Collecte de Corpus en RDC

Indissociable de l’acte technique de collecte, la rigueur éthique et la conformité juridique constituent le socle de la recherche en sciences humaines. Cette charte fournit un cadre opératoire spécifique au contexte de la RDC, abordant le consentement éclairé des locuteurs (pour les corpus oraux), la propriété intellectuelle des textes en ligne et l’anonymisation des données sensibles. Elle vise à outiller le futur linguiste pour constituer des corpus scientifiquement valides, juridiquement inattaquables et respectueux des communautés sources.

C. Étude de Cas : Constitution d’un Corpus Spécialisé sur le Secteur Minier Congolais

Au cœur des enjeux économiques de la RDC, le secteur minier génère un discours technique dense, essentiel à la terminologie. Cette étude de cas retrace méthodiquement la constitution d’un corpus spécialisé : de la définition des sources (rapports annuels, communiqués de presse, articles de loi) à l’extraction automatisée, puis à l’annotation semi-automatique des termes candidats. Le résultat est une base de données structurée, exploitable pour créer des dictionnaires spécialisés ou analyser les stratégies de communication des acteurs du secteur.

D. Glossaire Bilingue des Termes Clés (Français-Anglais)

Pour une maîtrise conceptuelle et une insertion professionnelle à l’international, ce glossaire bilingue définit plus de 100 termes techniques fondamentaux du traitement automatique des langues et de la linguistique de corpus. De “tokenisation” à “lemmatisation”, en passant par “web scraping” et “named-entity recognition (NER)”, chaque entrée offre une définition concise et sa traduction anglaise, standard de facto du domaine. Cet outil est conçu comme une référence rapide pour la lecture de la littérature scientifique et la communication technique.

Discussion (0)

Aucune intervention pour le moment. Soyez le premier à contribuer.

Cours de Récolte et Traitement de Corpus en RDC | Lettres, Langues et Arts