
Projet de l'étudiant
Conceptualisation et gestion de votre solution terminologique.
Édition 2026 – Réforme LMD – Enseignement supérieur et universitaire en RDC.
- Code Officiel : PLT2121
- Domaine : Lettres, Langues et Arts
- Filière : Lettres et Sciences Humaines
- Mention : Lexicographie, Terminologie et Traitement Automatique de Corpus
- Année d’étude : Master 1
- Semestre : Semestre 2
Consulter les Modalités, Compétences et Débouchés
Cette Unité d’Enseignement, valorisée à hauteur de 2 crédits ECTS, s’articule intégralement autour d’un unique Élément Constitutif : le Projet tutoré. Cette architecture pédagogique concentre l’ensemble de l’apprentissage sur une mise en situation professionnelle concrète, favorisant une acquisition de compétences par la pratique intensive et la réalisation d’un projet d’envergure sous supervision académique.
L’objectif principal est de doter les apprenants de la capacité à concevoir de bout en bout un projet complexe d’aménagement ou de traitement linguistique. En appliquant une démarche méthodologique rigoureuse, ils apprendront à transformer une problématique théorique en une solution concrète. Cette approche pragmatique culmine dans la production de livrables exploitables, conçus pour répondre de manière ciblée et efficace à un besoin lexicographique ou terminologique précis, démontrant ainsi une aptitude directe à la résolution de défis professionnels.
Les débouchés professionnels forment des experts positionnés comme des acteurs clés de la transformation numérique en République Démocratique du Congo. Le Chef de projet en traitement automatique de corpus pilotera la valorisation des immenses ressources linguistiques nationales, tandis que le Développeur de solutions dictionnairiques créera les outils indispensables à l’éducation et au commerce multilingue. Enfin, le Consultant en ingénierie des connaissances linguistiques jouera un rôle stratégique en conseillant les organisations sur l’exploitation de leur capital informationnel, contribuant à l’innovation dans un contexte riche de sa diversité linguistique.
PRÉLIMINAIRES
I. Objectifs Pédagogiques et Compétences Visées
Formalisation des aptitudes terminales que l’étudiant doit maîtriser. Au-delà de la simple restitution de connaissances, il s’agit de valider la capacité à piloter un micro-projet de A à Z : de la détection d’un besoin terminologique précis dans le tissu socio-économique congolais à la production d’un livrable fonctionnel (glossaire, base de données, prototype). L’accent est mis sur l’autonomie, la rigueur méthodologique et la justification de chaque décision technique face à un tuteur agissant en client expert.
II. Philosophie du Projet Tutoré en Master LTT-TAC
Ancrage de la démarche dans une perspective professionnalisante radicale. Le projet tutoré n’est pas un exercice académique isolé ; il simule une commande réelle d’ingénierie linguistique. L’étudiant endosse le rôle de consultant, responsable de la qualité, des délais et de la pertinence de sa solution. Cette posture impose une communication pro-active avec le tuteur, une documentation rigoureuse des processus et une orientation constante vers la valeur ajoutée pour un utilisateur final en RDC.
III. Cadre Méthodologique et Livrables Attendus
Définition du périmètre et des jalons obligatoires du projet. Cette section détaille la structure attendue du rapport final, incluant le cahier des charges, l’étude de l’existant, la méthodologie de constitution du corpus, les choix d’outillage (TAL), et la présentation des résultats. Les livrables intermédiaires (note de cadrage, planning prévisionnel, version alpha du produit) sont également spécifiés pour garantir un suivi itératif et prévenir les dérives, assurant une progression maîtrisée et évaluable.
IV. Charte d’Engagement et d’Éthique du Chercheur
Établissement des règles déontologiques impératives. Une attention particulière est portée au respect de la propriété intellectuelle, à la citation des sources et à la gestion éthique des données collectées, notamment lors de l’exploitation de corpus oraux ou de textes issus des langues nationales congolaises. La charte formalise l’engagement de l’étudiant à produire un travail original et à opérer avec l’intégrité scientifique requise pour tout futur professionnel de l’ingénierie des connaissances.
PARTIE 1 : FONDATIONS ET CADRAGE DU PROJET TERMINOLOGIQUE
Chapitre I. De l’Idée à la Problématique Scientifique
I.1 Identification du besoin et pertinence socio-économique
Face à la pluralité des contextes professionnels congolais, l’identification d’un besoin terminologique non satisfait constitue le point de départ de tout projet viable. Cette section outille l’étudiant pour analyser une chaîne de valeur (minière, agricole, numérique) et y déceler les “points de friction” linguistiques. L’objectif est de formuler une proposition de projet dont l’utilité est immédiatement démontrable, que ce soit pour l’harmonisation des procédures d’une ONG à Goma ou la création d’un glossaire pour l’e-gouvernement.
I.2 Construction de l’état de l’art et positionnement
Une connaissance fine des travaux existants est le prérequis à toute innovation. L’étudiant apprend ici à mener une veille scientifique et technique exhaustive pour cartographier les solutions dictionnairiques, terminologiques ou TAL déjà développées, en particulier celles concernant les langues bantoues ou le contexte multilingue de la RDC. Ce panorama critique permet de positionner son propre projet, d’en justifier l’originalité et d’éviter la redondance en s’appuyant sur des fondations solides.
I.3 Formulation de la problématique et des hypothèses
Dépassant la simple question de recherche, la problématisation consiste à mettre en tension un besoin observé, un vide théorique ou technique et une proposition de solution. Ce sous-chapitre guide l’étudiant dans la transformation d’une intuition en une problématique précise, délimitée et traitable dans le cadre du projet. Il s’agit de poser les hypothèses de travail qui structureront la démarche, par exemple sur l’efficacité d’une méthode d’extraction terminologique appliquée au lingala des affaires.
I.4 Définition du périmètre et des objectifs (Scope Statement)
Sous l’angle de la gestion de projet, la délimitation rigoureuse du périmètre est une assurance contre l’échec. L’étudiant apprend à rédiger une “déclaration de portée” (Scope Statement) qui fixe les frontières de son intervention : domaines couverts et exclus, langues cibles, volume du lexique à traiter, fonctionnalités du livrable final. Cet acte de cadrage est essentiel pour aligner les attentes du tuteur et garantir la faisabilité du projet dans le temps imparti.
Chapitre II. Ingénierie de la Planification et Gestion des Risques
II.1 Structuration du projet en lots de travail (WBS)
Une approche systémique de la complexité impose de décomposer le projet en unités gérables. Via la méthode WBS (Work Breakdown Structure), l’étudiant segmente son projet en grands livrables, puis en lots de travail et tâches élémentaires. Cette arborescence logique constitue l’ossature du projet, permettant une assignation claire des efforts et un suivi précis de l’avancement, qu’il s’agisse de la collecte de corpus juridiques à Kinshasa ou de l’annotation de termes médicaux en swahili.
II.2 Élaboration du planning et des jalons (Diagramme de Gantt)
La maîtrise du temps est une compétence managériale critique. Ce module forme à la traduction de la WBS en un calendrier opérationnel à l’aide d’un diagramme de Gantt. L’étudiant y définit la durée des tâches, leurs dépendances (chemin critique) et les jalons de validation clés. Cet outil visuel devient le tableau de bord du projet, indispensable pour piloter l’avancement, communiquer sur les délais et anticiper les goulots d’étranglement logistiques ou techniques.
II.3 Allocation des ressources et estimation budgétaire
Même un projet académique requiert une gestion rigoureuse des ressources. L’étudiant est amené à identifier et quantifier tous les moyens nécessaires : accès à des bases de données, logiciels spécifiques (ex: AntConc, Sketch Engine), temps-expert pour la validation terminologique, matériel d’enquête de terrain. Cette analyse débouche sur une estimation budgétaire simulée, préparant le futur chef de projet à justifier ses besoins et à optimiser l’allocation des moyens dans un contexte de ressources souvent limitées.
II.4 Analyse des risques et stratégies d’atténuation
Anticiper les obstacles est la marque d’un pilotage professionnel. Cette section initie à la création d’une matrice des risques, où chaque menace potentielle (ex: indisponibilité d’un expert, corruption d’un corpus, incompatibilité logicielle) est évaluée selon sa probabilité et son impact. Pour chaque risque majeur identifié, l’étudiant doit proposer un plan de contingence concret, transformant l’incertitude en un ensemble de scénarios maîtrisés et de réponses préparées.
Chapitre III. Constitution et Annotation du Corpus de Spécialité
III.1 Stratégies de collecte et de constitution du corpus
Au cœur de tout projet terminologique se trouve le corpus, reflet de l’usage réel de la langue dans un domaine. Ce volet enseigne les méthodologies de collecte de données textuelles pertinentes pour le contexte congolais : moissonnage de sites web institutionnels, numérisation de documents officiels, transcription d’entretiens avec des experts. L’accent est mis sur la constitution d’un corpus équilibré, représentatif et suffisamment volumineux pour garantir la fiabilité des analyses ultérieures.
III.2 Cadre juridique et éthique de l’exploitation des données
L’utilisation de données linguistiques n’est jamais neutre. Une analyse pointue des aspects légaux et éthiques est ici menée, notamment concernant le droit d’auteur des textes collectés et le consentement éclairé des locuteurs enregistrés. L’étudiant apprend à anonymiser les données sensibles et à documenter la provenance de chaque fragment de son corpus, assurant une traçabilité et une conformité indispensables à la valorisation scientifique et commerciale de son travail.
III.3 Techniques de nettoyage et de pré-traitement du corpus
Un corpus brut est rarement exploitable directement par les outils de TAL. Cette section couvre les étapes techniques de pré-traitement : conversion de formats (PDF vers TXT), nettoyage du “bruit” (balises HTML, scories d’OCR), normalisation orthographique, tokenisation (segmentation en mots) et lemmatisation (regroupement des formes flexionnelles). La maîtrise de ces scripts et outils est fondamentale pour préparer un matériau textuel propre et structuré, apte à l’analyse computationnelle.
III.4 Méthodes d’annotation linguistique (POS-Tagging, Entités Nommées)
Enrichir le corpus avec des informations linguistiques est une étape cruciale pour l’extraction terminologique. L’étudiant explore ici les techniques d’annotation, en particulier l’étiquetage morpho-syntaxique (Part-of-Speech Tagging) et la reconnaissance d’entités nommées (NER). Il apprend à choisir, voire à adapter, les outils existants pour les langues cibles de son projet, qu’il s’agisse du français de RDC ou d’une langue nationale pour laquelle les ressources sont encore rares.
PARTIE 2 : MISE EN ŒUVRE ET PILOTAGE DU PROJET TERMINOLOGIQUE
Chapitre IV. Cadrage Méthodologique et Spécification du Projet
IV.1 Identification et formalisation de la problématique
Ancrée dans les besoins concrets du tissu économique congolais, cette phase consiste à isoler une carence terminologique précise au sein d’un secteur stratégique (mines, télécoms, agrobusiness). L’étudiant apprend à transformer un besoin diffus, exprimé par un acteur local, en une question de recherche actionnable. L’objectif est de délimiter un problème dont la résolution par un outil terminologique apportera une plus-value mesurable, comme la sécurisation des contrats miniers ou l’harmonisation des pratiques agricoles.
IV.2 Sélection et justification de la démarche terminologique
Face à la diversité des approches, le choix méthodologique est ici un acte stratégique. L’étudiant doit arbitrer entre une démarche onomasiologique (partant du concept pour trouver le terme) ou sémasiologique (partant du terme pour définir le concept), en fonction du problème posé. Ce choix, justifié par un argumentaire technique, déterminera la structure du travail, qu’il s’agisse de créer une nomenclature pour les nouvelles taxes en RDC ou de clarifier les usages d’un jargon technique émergent.
IV.3 Élaboration du cahier des charges fonctionnel
Sous l’angle de la gestion de projet, la rédaction d’un cahier des charges rigoureux est non-négociable. Ce document formalise les objectifs, le périmètre exact du projet, les livrables attendus, les contraintes techniques et les critères de validation. Pour un projet en RDC, il intègre les spécificités locales comme le multilinguisme (français, lingala, swahili, etc.) ou la faible connectivité, orientant ainsi la conception d’une solution robuste et adaptée au terrain.
IV.4 Planification opérationnelle et gestion des risques
Une connaissance approfondie des outils de planification est mobilisée pour construire un rétroplanning réaliste. L’étudiant utilise des diagrammes de Gantt pour séquencer les tâches, allouer les ressources et définir les jalons critiques. Une matrice des risques est établie, anticipant les obstacles potentiels (difficulté d’accès aux experts, corpus de données inexistant, etc.) et prévoyant des stratégies de mitigation pour garantir la livraison du projet dans les délais impartis.
Chapitre V. Constitution et Annotation du Corpus de Spécialité
V.1 Stratégies de collecte et de validation des sources
Essentielle pour la fiabilité du projet, la constitution du corpus débute par l’identification de sources documentaires pertinentes et fiables. L’étudiant apprend à sourcer des textes spécialisés propres au contexte congolais : rapports de la GECAMINES, Journal Officiel de la RDC, publications scientifiques de l’UNIKIN, documentation technique d’opérateurs télécoms. Chaque source est évaluée selon des critères de représentativité, de légitimité et d’actualité pour former un corpus équilibré.
V.2 Nettoyage, normalisation et structuration du corpus
Dépassant la simple compilation, cette étape technique prépare les données brutes pour le traitement automatique. L’étudiant applique des scripts pour nettoyer les textes (suppression des balises HTML, correction de l’OCR), normaliser les formats et unifier l’encodage (UTF-8). Le corpus est ensuite structuré (XML, JSON) en ajoutant des métadonnées cruciales (auteur, date, source), condition sine qua non pour une analyse linguistique et statistique rigoureuse et reproductible.
V.3 Principes et outils de l’annotation linguistique
Au cœur du traitement de corpus, l’annotation enrichit le texte brut d’informations linguistiques. L’étudiant se forme à l’étiquetage morpho-syntaxique (Part-of-Speech tagging) et à la lemmatisation, en utilisant des outils comme TreeTagger ou Spacy, qu’il adapte si nécessaire aux spécificités du français parlé en RDC. Cette structuration sémantique fine est la fondation sur laquelle reposeront les algorithmes d’extraction terminologique, garantissant la précision des résultats.
V.4 Techniques d’extraction terminologique (automatisée et semi-automatisée)
Critique pour la productivité, l’extraction de termes candidats est ici abordée via des approches computationnelles. L’étudiant met en œuvre des méthodes statistiques (fréquence, TF-IDF, cooccurrences) et linguistiques (patrons lexico-syntaxiques) pour identifier automatiquement les unités terminologiques potentielles dans le corpus annoté. Il apprend à évaluer et à filtrer les listes de candidats générées, combinant la puissance de l’outil et son jugement d’expert pour ne retenir que les termes pertinents.
Chapitre VI. Élaboration du Livrable Terminologique et Validation
VI.1 Conception de la fiche terminologique et structuration de la base
La formalisation des connaissances exige une structure de données pensée pour l’exploitation. L’étudiant conçoit l’architecture de la fiche terminologique (terme vedette, définitions, contextes, équivalents, relations conceptuelles) en fonction des objectifs du projet. Cette structure est ensuite implémentée dans un système de gestion de base de données (ex: TBX, SQL), garantissant l’intégrité, l’interopérabilité et l’évolutivité de la ressource terminologique créée.
VI.2 Rédaction terminographique : définition, contexte et phraséologie
Issue des pratiques professionnelles, la rédaction terminographique est un exercice de précision absolue. L’étudiant apprend à rédiger des définitions non-circulaires, à sélectionner des contextes d’usage qui illustrent sans ambiguïté le sens du terme, et à recenser la phraséologie associée (collocations, expressions figées). Une attention particulière est portée à la recherche d’équivalents fonctionnels dans les langues nationales de la RDC, augmentant l’utilité pratique du livrable.
VI.3 Protocoles de validation par les experts du domaine
Pour garantir sa validité scientifique et technique, la ressource terminologique doit être confrontée à l’expertise métier. L’étudiant élabore un protocole de validation (questionnaires, entretiens dirigés) et le soumet à des spécialistes du domaine en RDC (un ingénieur minier de Lubumbashi, un juriste de Kinshasa). Leurs retours sont analysés et intégrés de manière systématique pour affiner et corriger la base de données, assurant sa conformité aux usages réels.
VI.4 Mise en forme et soutenance du projet : du rapport au prototype
La valorisation du travail se matérialise par la production de livrables clairs et la capacité à les défendre. L’étudiant synthétise sa démarche et ses résultats dans un rapport académique structuré, mais conçoit également un prototype fonctionnel (glossaire en ligne, base de données consultable, export pour outil de TAO). La soutenance orale devient alors la démonstration de la maîtrise du problème, de la solution développée et de son impact socio-économique potentiel.
ANNEXES
A. Canevas de la Charte de Projet Terminologique
Instrument de pilotage stratégique, ce canevas formalise la proposition de valeur de votre projet. Il structure la problématique à résoudre, les objectifs SMART (Spécifiques, Mesurables, Atteignables, Réalistes, Temporellement définis), le périmètre exact du domaine à traiter, les livrables attendus et le macro-planning. Sa validation par le tuteur académique constitue l’acte fondateur qui autorise le démarrage des travaux, garantissant un alignement parfait entre la vision de l’étudiant et les exigences académiques.
B. Modèle de Fiche Terminologique Standardisée (Norme CPE-MINESU)
Matrice de la capitalisation des connaissances, cette fiche est le cœur atomique de votre livrable. Elle impose une structuration rigoureuse de l’information pour chaque concept : vedette, variantes graphiques, définition ontologique, contextes d’usage authentifiés, sources (expertes ou documentaires), et équivalents potentiels dans les langues nationales congolaises (Lingala, Swahili, Tshiluba, Kikongo). Son remplissage systématique assure la cohérence, l’exploitabilité et la pérennité de la base terminologique créée.
C. Protocole de Constitution de Corpus en Contexte Congolais
Face à la rareté relative de corpus numériques spécialisés et normalisés en RDC, ce protocole fournit une méthodologie de collecte hybride. Il détaille les étapes pour agréger des sources écrites (rapports, articles, Journal Officiel) et orales (entretiens avec des experts de terrain, captations). L’accent est mis sur les techniques de nettoyage, d’anonymisation, de transcription et de balisage XML/TEI de base, afin de constituer un corpus représentatif et exploitable pour l’extraction terminologique.
D. Grille d’Évaluation des Livrables et de la Soutenance
Référentiel de performance et d’auto-évaluation, cette grille détaille les critères sur lesquels le projet sera jugé. Elle pondère la pertinence du sujet par rapport aux besoins socio-économiques de la RDC, la rigueur de la démarche méthodologique appliquée, la qualité scientifique des fiches terminologiques produites, la clarté du rapport final et la maîtrise du sujet démontrée lors de la soutenance orale. L’étudiant l’utilise pour piloter son travail vers l’excellence attendue.
Discussion (0)
Aucune intervention pour le moment. Soyez le premier à contribuer.
Votre intervention Annuler la réponse