
Observation des langues et phénomènes linguistiques
Théorisation et analyse statistique des faits langagiers.
Édition 2026 – Réforme LMD – Enseignement supérieur et universitaire en RDC.
- Code Officiel : OLP1362
- Domaine : Domaine des Lettres, Langues et Arts
- Filière : Lettres et Sciences Humaines
- Mention : Sciences du Langage
- Année d’étude : Licence 3
- Semestre : Semestre 6
Consulter les Modalités, Compétences et Débouchés
Cette unité d’enseignement, valorisée à 6 crédits, s’articule de manière synergique autour de deux Éléments Constitutifs fondamentaux. Le premier, consacré aux Théories linguistiques, établit le socle conceptuel, tandis que le second, axé sur la Statistique linguistique, fournit les outils méthodologiques quantitatifs. Bien que le volume horaire ne soit pas spécifié, cette architecture duale assure un parcours d’apprentissage complet, intégrant la profondeur de la réflexion théorique à la rigueur de l’analyse empirique des données langagières.
Intégrée à un parcours d’excellence, cette UE confère une plus-value significative au diplôme obtenu en formant des experts au profil hybride et hautement recherché. Elle transcende la dichotomie traditionnelle entre sciences humaines et sciences exactes en outillant le futur diplômé d’une double compétence. La maîtrise des subtilités du langage, alliée à la puissance de l’analyse computationnelle, positionne ainsi l’étudiant à l’avant-garde des innovations interdisciplinaires, lui garantissant une reconnaissance académique et professionnelle de premier plan.
Les compétences développées sont d’une utilité pratique immédiate et stratégique. L’étudiant apprendra à mobiliser les théories linguistiques majeures comme des instruments d’analyse pour décoder la structure et le fonctionnement des langues. Cette expertise est directement couplée à l’application de modèles mathématiques et statistiques, permettant de transformer des corpus textuels massifs en insights quantifiables. La compétence ultime réside dans la capacité à formaliser l’explication de phénomènes de discours complexes, offrant des solutions tangibles à des problématiques de communication, d’interprétation ou de traitement automatique en contexte réel.
Les débouchés professionnels visés, tels que Chercheur en sciences du langage, Analyste de données linguistiques (TAL) et Consultant en ingénierie linguistique, revêtent une importance cruciale sur le marché de l’emploi en République Démocratique du Congo (RDC). Dans un pays caractérisé par un riche patrimoine multilingue et une transformation numérique accélérée, ces experts sont indispensables. Ils peuvent documenter et préserver les langues nationales, analyser les discours publics pour éclairer les politiques, et développer des technologies (assistants vocaux, traducteurs) adaptées aux spécificités linguistiques locales, devenant ainsi des acteurs clés de l’inclusion sociale et du développement économique.
PRÉLIMINAIRES
I. Positionnement de l’Unité d’Enseignement
Au cœur du multilinguisme exceptionnel de la République Démocratique du Congo, cette Unité d’Enseignement positionne l’étudiant comme un architecte de la connaissance linguistique. Elle outille pour passer de l’observation passive des faits de langue à une modélisation scientifique rigoureuse. L’objectif est de transformer le paysage linguistique congolais, perçu comme un laboratoire vivant, en un terrain d’analyse formelle et quantitative, produisant des données exploitables pour la recherche, la technologie et les politiques linguistiques nationales.
II. Compétences Visées et Débouchés Professionnels
Cette UE forge trois compétences cardinales : la description formelle des structures linguistiques, l’application de modèles statistiques à des corpus textuels, et l’analyse critique des discours en contexte. Ces aptitudes répondent directement aux besoins du marché pour des analystes de données linguistiques (TAL), des consultants en ingénierie linguistique pour la localisation de logiciels, et des chercheurs capables de documenter et de valoriser le patrimoine linguistique congolais, un enjeu de souveraineté culturelle et numérique.
III. Approche Pédagogique et Logique de Progression
La structure du manuel suit une progression logique allant du théorique au pratique. La Partie 1 établit les fondements conceptuels des grandes théories linguistiques, de la phonologie à la pragmatique. La Partie 2 bascule vers l’application quantitative, introduisant les outils statistiques pour valider ou infirmer les hypothèses sur de larges corpus. Chaque chapitre est conçu pour démontrer l’utilité socio-économique immédiate des savoirs, enracinant chaque concept dans une problématique congolaise concrète.
IV. Guide d’Utilisation du Manuel
Pour une maîtrise optimale, l’étudiant doit aborder ce manuel comme une boîte à outils. Chaque sous-chapitre présente un concept, sa formalisation théorique, et son application directe à une langue ou un phénomène discursif pertinent en RDC. Les encadrés “Ancrage RDC” ne sont pas des illustrations mais des cas d’étude centraux. Il est impératif de réaliser les exercices de modélisation pour passer de la compréhension passive à la compétence active, condition sine qua non de l’employabilité.
PARTIE 1 : FONDEMENTS THÉORIQUES ET MÉTHODOLOGIQUES DE LA DESCRIPTION LINGUISTIQUE
Chapitre I. Le Langage comme Système : L’Héritage Structuraliste
I.1 Distinction fondatrice : Langue, Langage, Parole
Au cœur de la pensée saussurienne, la dissociation entre la faculté universelle (langage), le système social et abstrait (langue) et son actualisation individuelle (parole) structure toute l’analyse linguistique moderne. Maîtriser cette triade est le prérequis pour isoler l’objet d’étude pertinent. Nous appliquons cette grille pour différencier les innovations du français de Kinshasa (parole) des structures systémiques de la langue française (langue), posant les bases d’une analyse rigoureuse et non prescriptive.
I.2 Le signe linguistique : Arbitraire et Linéarité
Fondamental pour l’analyse, le concept de signe décomposé en signifiant (image acoustique) et signifié (concept) établit le caractère arbitraire du lien qui les unit. Cette non-nécessité explique la diversité des langues. La linéarité du signifiant, elle, contraint l’organisation temporelle du discours. Comprendre ces deux principes permet de déconstruire les mythes sur les langues “primitives” et de justifier scientifiquement l’égale complexité de toutes les langues de la RDC, du lingala au mashi.
I.3 Rapports syntagmatiques et paradigmatiques
Une compréhension structurelle des énoncés repose sur l’analyse de deux axes. L’axe syntagmatique régit la combinaison des unités en présence (la chaîne parlée), tandis que l’axe paradigmatique gouverne le choix d’une unité parmi un ensemble d’unités substituables. Cette double analyse est l’outil de base pour disséquer la grammaire d’une langue et identifier les contraintes qui pèsent sur le locuteur, par exemple dans la construction d’une phrase en tshiluba respectant l’ordre des classes nominales.
I.4 Application du structuralisme à l’analyse des langues congolaises
Face à la diversité linguistique de la RDC, souvent non-documentée, l’approche structuraliste offre une méthode robuste pour une première description. Ce point démontre comment, à partir d’un corpus collecté, on peut identifier les unités minimales (phonèmes, morphèmes), leurs règles de combinaison et ainsi esquisser la grammaire d’une langue locale. C’est une compétence essentielle pour les projets de documentation linguistique, de création de dictionnaires ou de matériel pédagogique en langues nationales.
Chapitre II. La Substance Sonore : Phonétique et Phonologie
II.1 Phonétique articulatoire : L’appareil de production
L’analyse rigoureuse des sons du langage débute par la maîtrise de leur production physique. Ce sous-chapitre cartographie l’appareil phonatoire humain et classifie les sons (voyelles, consonnes) selon leur lieu et leur mode d’articulation. Cette compétence technique est indispensable pour décrire avec précision les spécificités des langues congolaises, comme les consonnes prénasalisées (ex: /mb/, /nd/) ou les tons, éléments cruciaux pour la distinction des significations dans la majorité des langues bantoues.
II.2 Transcription phonétique (API) : Vers une notation universelle
Sous l’angle de la standardisation, l’Alphabet Phonétique International (API) est l’outil de transcription par excellence, permettant de noter sans ambiguïté les sons de n’importe quelle langue. Sa maîtrise est une compétence non négociable pour le linguiste de terrain. Nous nous exerçons ici à la transcription de mots en kikongo ou en swahili de l’Est, démontrant comment l’API capture des nuances que l’orthographe standard ignore, assurant la préservation et la comparabilité des données.
II.3 De la phonétique à la phonologie : Le concept de phonème
La transition du son physique (phone) à l’unité distinctive (phonème) est le saut conceptuel fondateur de la phonologie. Un phonème est une unité abstraite capable de différencier des mots (paire minimale). Ce point explique la méthodologie pour identifier les phonèmes d’une langue donnée, en appliquant le test de la paire minimale à des exemples tirés du lingala, prouvant ainsi quelles distinctions sonores sont pertinentes pour le système de cette langue et lesquelles ne le sont pas.
II.4 Systèmes phonologiques des langues nationales de la RDC
Une cartographie phonologique du Congo révèle des systèmes contrastés. Ce sous-chapitre compare et oppose les inventaires de phonèmes (vocaliques et consonantiques) et les systèmes tonals des quatre langues nationales. Comprendre ces structures est vital pour l’enseignement des langues, la conception de technologies vocales (reconnaissance/synthèse) adaptées au contexte congolais, ou encore pour analyser les phénomènes d’interférence phonologique chez les locuteurs plurilingues.
Chapitre III. La Forme des Mots : Morphologie et Lexicologie
III.1 Le morphème : Unité minimale de sens
Isoler l’unité de sens fondamentale, le morphème, est la première étape de l’analyse morphologique. Ce point distingue les morphèmes lexicaux (porteurs du sens de base) des morphèmes grammaticaux (libres ou liés), qui indiquent les relations. L’analyse d’un mot complexe en une langue bantoue comme le ciluba, par exemple “Ndi mukusumbila” (Je suis en train d’acheter pour toi), permet de décomposer la chaîne en ses morphèmes constitutifs et de révéler la logique interne de sa construction.
III.2 Processus de formation des mots : Dérivation et Composition
Au-delà des mots simples, les langues disposent de mécanismes pour créer une infinité de nouvelles unités lexicales. La dérivation (ajout d’affixes) et la composition (combinaison de mots) sont ici étudiées en détail. L’analyse se concentre sur la productivité de ces processus dans le français de Kinshasa (“kadhafi” pour fraudeur) ou le lingala urbain, montrant comment les locuteurs exploitent ces règles pour nommer de nouvelles réalités sociales et technologiques, un enjeu clé pour les lexicographes et publicitaires.
III.3 Morphologie flexionnelle et classes nominales des langues bantoues
Caractéristique majeure des langues bantoues de la RDC, le système des classes nominales est un pilier de la morphologie flexionnelle. Ce système régit les accords entre le nom et les autres constituants de la phrase (adjectifs, verbes). Ce sous-chapitre formalise les règles d’accord en swahili ou kikongo, une compétence cruciale pour le développement d’analyseurs syntaxiques automatiques ou de logiciels d’aide à la traduction, qui butent souvent sur cette complexité structurelle.
III.4 Analyse lexicologique : Champs sémantiques et emprunts
Une exploration du lexique révèle l’organisation conceptuelle d’une culture. L’analyse en champs sémantiques (ex: le lexique de l’agriculture) et l’étude des emprunts linguistiques sont des outils puissants. Nous examinons ici comment le lexique du commerce en swahili de l’Est intègre des termes arabes, anglais et français, et ce que cela révèle des dynamiques historiques et économiques de la région. Cette analyse a des applications directes en marketing interculturel et en sociolinguistique historique.
Chapitre IV. L’Architecture de la Phrase : Paradigmes Syntaxiques
IV.1 Syntaxe et constituants de la phrase : L’analyse en constituants immédiats
Décomposer la phrase en ses unités fonctionnelles hiérarchisées est le fondement de l’analyse syntaxique. La méthode des constituants immédiats permet de visualiser la structure de la phrase sous forme d’arbres, en identifiant les syntagmes (nominal, verbal, etc.). Appliquer cette technique à une phrase française puis à son équivalent en lingala met en évidence les différences de structure (ex: place de l’adjectif), une étape indispensable avant toute tentative de traduction automatique ou d’enseignement comparé.
IV.2 Le modèle génératif de Chomsky : Structure de surface et structure profonde
D’une perspective transformationnelle, la grammaire générative postule une distinction entre la structure de surface (la phrase telle qu’elle est prononcée) et la structure profonde (sa représentation sémantique sous-jacente). Ce modèle puissant explique comment des phrases de surface différentes peuvent partager le même sens (ex: voix active/passive). Son application permet de modéliser des phénomènes complexes comme l’ambiguïté syntaxique, un défi majeur pour les applications de traitement du langage naturel.
IV.3 Fonctions grammaticales et typologie des langues (SVO, SOV, etc.)
La classification des langues selon l’ordre de base des mots (Sujet, Verbe, Objet) est un outil typologique fondamental. Ce sous-chapitre positionne les langues de la RDC dans cette typologie mondiale. Analyser si une langue est SVO (comme le français) ou a une structure plus libre permet d’anticiper des difficultés d’apprentissage pour les locuteurs et de paramétrer correctement les outils d’analyse syntaxique. C’est une connaissance stratégique pour les politiques d’alphabétisation et d’ingénierie multilingue.
IV.4 Application à la syntaxe du français de Kinshasa et du swahili de l’Est
Face aux phénomènes de contact linguistique, des structures syntaxiques hybrides émergent. Ce point analyse des constructions spécifiques au français parlé à Kinshasa (ex: “C’est de ça que je te parlais ça”) ou au swahili des régions frontalières, en identifiant les transferts de structures depuis les langues bantoues. Cette analyse est cruciale pour les sociolinguistes, mais aussi pour les entreprises qui doivent adapter leur communication pour être comprises et perçues comme authentiques par ces populations.
Chapitre V. La Construction du Sens : Sémantique et Pragmatique
V.1 Sémantique lexicale : Relations de sens et analyse componentielle
L’étude du sens des mots, ou sémantique lexicale, s’appuie sur la formalisation des relations de sens (synonymie, antonymie, hyponymie). L’analyse componentielle (ou sémique) permet de décomposer le sens d’un mot en traits sémantiques minimaux. Appliquer cette méthode au champ lexical des termes de parenté dans une société congolaise spécifique permet de révéler une structure sociale et des distinctions conceptuelles absentes du français, un savoir indispensable pour l’anthropologue ou le traducteur.
V.2 Sémantique phrastique : Principe de compositionnalité et ses limites
Le sens d’une phrase est-il la somme du sens de ses mots ? Le principe de compositionnalité, qui répond oui, est la base de l’interprétation sémantique. Ce point en explore la puissance et les limites, notamment face aux expressions idiomatiques et aux métaphores. L’analyse d’un proverbe en otetela démontre que le sens global ne peut être déduit littéralement, ce qui impose le recours à une connaissance culturelle, un enjeu majeur pour l’intelligence artificielle et la communication interculturelle.
V.3 La pragmatique : Actes de langage et principe de coopération
Au-delà du sens littéral, la pragmatique étudie ce que l’on fait en parlant (actes de langage : promettre, ordonner, questionner). Le principe de coopération de Grice et ses maximes expliquent comment les interlocuteurs parviennent à se comprendre en dépit des implicites. Analyser un échange sur un marché de Matadi à travers cette grille révèle les stratégies de négociation, les demandes polies et les refus implicites, une compétence clé pour tout acteur économique ou social.
V.4 Analyse des implicites et des sous-entendus dans le discours public congolais
Une lecture critique du discours public en RDC exige une maîtrise de l’analyse pragmatique. Ce sous-chapitre fournit les outils pour identifier les présupposés, les sous-entendus et les actes de langage indirects dans les discours politiques, les sermons religieux ou les campagnes de santé publique. Savoir décoder ces non-dits est une compétence citoyenne de premier ordre et un atout professionnel pour les journalistes, les communicateurs et les analystes politiques.
Chapitre VI. Le Langage en Contexte : Analyse du Discours et Énonciation
VI.1 De la phrase au texte : Cohésion et cohérence discursives
Un texte est plus qu’une suite de phrases ; il possède une texture. Ce sous-chapitre examine les mécanismes linguistiques de la cohésion (anaphores, connecteurs, etc.) et les processus cognitifs de la cohérence qui assurent son unité. L’analyse d’un article de la presse de Lubumbashi permet d’identifier comment l’auteur guide le lecteur, structure son argumentation et assure la fluidité de son propos, des techniques que l’étudiant doit pouvoir à la fois analyser et reproduire.
VI.2 Théories de l’énonciation : La place du sujet parlant
L’inscription du locuteur dans son propre énoncé est au cœur des théories de l’énonciation. Ce point analyse les marques de la subjectivité : pronoms personnels (je/tu), déictiques spatio-temporels (ici/maintenant) et modalisateurs (peut-être, certainement). Étudier leur usage dans un témoignage recueilli dans le Kivu permet de comprendre comment le locuteur se positionne par rapport à son récit, aux événements et à son interlocuteur, une analyse fine essentielle en droit, en histoire et en psychologie.
VI.3 Genres de discours : Caractéristiques et contraintes
Chaque type de communication obéit à des règles implicites qui définissent son genre discursif. Ce sous-chapitre propose une méthodologie pour caractériser un genre en analysant ses contraintes structurelles, lexicales et énonciatives. La comparaison formelle d’une plaidoirie d’avocat, d’une annonce publicitaire pour une boisson et d’un conte traditionnel Mbuun révèle les codes spécifiques à chaque genre, dont la maîtrise est indispensable pour communiquer efficacement dans un contexte professionnel donné.
VI.4 Méthodologie de l’analyse de corpus : Du recueil à l’interprétation
Pour une analyse de discours fondée sur des données probantes, une méthodologie de corpus est impérative. Ce point détaille les étapes pratiques : définition et constitution d’un corpus (ex: tweets sur un sujet d’actualité à Goma), nettoyage et annotation des données, analyse quantitative et qualitative. Cette approche, qui prépare à la Partie 2 de l’ouvrage, transforme l’étudiant en un véritable analyste de données linguistiques, capable de produire des savoirs objectifs à partir de la masse de textes disponibles.
PARTIE 2 : MÉTHODOLOGIES AVANCÉES ET ANALYSE QUANTITATIVE DES FAITS LANGAGIERS
Chapitre VII. Corpus Linguistique et Méthodes de Collecte
VII.1 Constitution et typologie des corpus
Ensemble structuré de données textuelles ou orales, le corpus constitue la matière première de l’analyse linguistique moderne. Ce point détaille les critères de constitution (taille, représentativité, équilibre) et les différentes typologies de corpus : de référence, spécialisés, oraux, écrits, multimodaux. La maîtrise de ces concepts est fondamentale pour concevoir un protocole de recherche rigoureux, adapté à l’étude des dynamiques linguistiques spécifiques à la RDC, comme l’évolution du français kinois.
VII.2 Protocoles de collecte de données de terrain
Face à la diversité des sources langagières en RDC, des protocoles de collecte rigoureux sont impératifs. Cette section enseigne les techniques d’enquête sociolinguistique, d’enregistrement audio/vidéo en milieu naturel, et de recueil de données numériques (réseaux sociaux, presse en ligne). L’étudiant apprendra à élaborer une grille d’observation et un guide d’entretien pour capturer des phénomènes précis comme l’alternance codique dans les marchés de Matadi ou les forums de Goma.
VII.3 Annotation, nettoyage et structuration des données
Une fois collectées, les données brutes nécessitent une phase critique d’annotation et de nettoyage pour devenir exploitables. Ce sous-chapitre présente les standards d’annotation (lemmatisation, étiquetage morpho-syntaxique) et les outils logiciels (ex: ELAN pour l’oral). L’objectif est de transformer un enregistrement brut ou un texte non structuré en une base de données exploitable statistiquement, condition sine qua non pour toute analyse quantitative sérieuse des parlers congolais.
VII.4 Enjeux éthiques et juridiques de la manipulation des données
La manipulation de données linguistiques, particulièrement orales et privées, impose un cadre éthique strict. Cette section aborde les questions de consentement éclairé des locuteurs, d’anonymisation des données et de respect de la propriété intellectuelle des contenus. Appliquer ces principes est une responsabilité non négociable pour le linguiste, garantissant la protection des communautés sources, qu’il s’agisse de traditions orales du Kasaï ou de conversations privées sur des plateformes numériques.
Chapitre VIII. Fondements de la Statistique Linguistique
VIII.1 Statistique descriptive appliquée aux textes
Sous l’angle de la quantification, la statistique descriptive offre les premiers outils pour synthétiser un corpus. Ce point couvre le calcul des fréquences (absolues, relatives), des mesures de tendance centrale (moyenne, médiane) et de dispersion (variance, écart-type) appliquées aux faits de langue. L’étudiant saura, par exemple, calculer la longueur moyenne des phrases dans un discours politique ou la fréquence d’usage d’un néologisme dans la presse de Lubumbashi pour en objectiver l’importance.
VIII.2 Lois de probabilité et modélisation stochastique
Une compréhension fine des lois de probabilité (loi de Zipf, loi binomiale) est indispensable pour modéliser l’occurrence des événements linguistiques. Ce sous-chapitre explique comment ces modèles mathématiques permettent de prédire la distribution des mots dans une langue et de distinguer les phénomènes statistiquement significatifs du simple hasard. Cette compétence est cruciale pour l’analyste qui cherche à identifier des marqueurs stylistiques propres à un auteur ou à un genre discursif.
VIII.3 Tests d’hypothèses en linguistique (Khi-deux, Student)
Pour valider ou infirmer une hypothèse linguistique de manière scientifique, le recours aux tests statistiques est obligatoire. Cette section forme à l’application pratique du test du Khi-deux pour comparer des distributions de fréquences (ex: usage d’un temps verbal entre deux locuteurs) ou du test de Student pour comparer des moyennes. L’étudiant pourra ainsi prouver avec une rigueur statistique si une variation linguistique observée est significative ou non.
VIII.4 Visualisation des données linguistiques
La visualisation des données transforme les tableaux de chiffres en aperçus intelligibles et communicables. Ce point technique enseigne la création de graphiques pertinents : histogrammes de fréquences, nuages de points pour les corrélations, ou cartographies pour la dialectométrie. Un analyste de données linguistiques doit maîtriser ces outils pour présenter de manière percutante les résultats d’une analyse sur la vitalité des langues nationales dans les différentes provinces de la RDC.
Chapitre IX. Analyse Lexicométrique et Sémantique Distributionnelle
IX.1 Principes de la lexicométrie
Centrée sur la mesure du vocabulaire, la lexicométrie quantifie la richesse, la diversité et les spécificités lexicales d’un corpus. Ce sous-chapitre introduit les indices clés comme le ratio type/token, l’indice de Herdan, et les méthodes de calcul des spécificités positives ou négatives. L’application de ces métriques permet d’objectiver le style d’un écrivain congolais ou de comparer le lexique utilisé par différents médias pour traiter d’un même sujet, comme les enjeux miniers.
IX.2 Analyse des co-occurrences et des collocations
Au-delà de la simple fréquence, l’analyse des co-occurrences révèle les affinités sémantiques et syntaxiques entre les mots. Cette section présente les techniques de calcul des scores d’association (information mutuelle, log-likelihood) pour extraire les collocations statistiquement robustes. Identifier ces paires de mots (ex: “ressources minières”, “développement durable”) est essentiel pour comprendre l’ossature idéologique d’un discours et pour l’ingénierie de dictionnaires spécialisés.
IX.3 Sémantique distributionnelle et plongements lexicaux (word embeddings)
Postulant qu’un mot se définit par les contextes où il apparaît, la sémantique distributionnelle modélise le sens de manière vectorielle. Ce point introduit les modèles de plongements lexicaux (Word2Vec, GloVe) qui représentent les mots comme des vecteurs dans un espace à haute dimension. Maîtriser cette approche permet de calculer la similarité sémantique entre termes, une technologie au cœur des moteurs de recherche et des systèmes de recommandation modernes.
IX.4 Classification textuelle et Topic Modeling
Face à de vastes corpus, les algorithmes de topic modeling (ex: LDA) permettent d’identifier automatiquement les thèmes latents qui structurent les documents. Cette section enseigne comment appliquer ces modèles pour classifier un ensemble de textes non étiquetés. Un analyste peut ainsi découvrir les principaux sujets de préoccupation exprimés sur les réseaux sociaux en RDC ou segmenter des milliers de rapports administratifs par thématique sans lecture manuelle.
Chapitre X. Modélisation du Discours et Analyse Pragmatique
X.1 Segmentation et annotation du discours
La segmentation du discours en unités fonctionnelles (tours de parole, actes de langage, relations rhétoriques) est le préalable à son analyse formelle. Ce sous-chapitre expose les cadres théoriques comme la Rhetorical Structure Theory (RST) et les outils d’annotation associés. Cette compétence permet de décomposer la logique d’un plaidoyer juridique ou d’une négociation commerciale pour en analyser la structure argumentative et les stratégies persuasives mises en œuvre.
X.2 Analyse quantitative de l’argumentation
Déconstruire la structure argumentative d’un texte politique ou juridique est une compétence analytique de premier ordre. Cette section présente des méthodes pour quantifier la présence de types d’arguments (par l’exemple, par l’autorité), de connecteurs logiques et de schémas fallacieux. L’étudiant apprendra à cartographier un débat parlementaire pour évaluer la complexité argumentative des intervenants et identifier les points de consensus ou de rupture.
X.3 Théorie de la politesse et analyse des interactions
Issue des travaux de Brown et Levinson, la théorie de la politesse offre une grille d’analyse puissante pour les interactions verbales. Ce point explique comment coder et quantifier les actes menaçant la face (Face-Threatening Acts) et les stratégies de politesse (positive, négative). Appliquer ce modèle aux interactions de service à Kinshasa ou aux débats médiatisés permet de comprendre les normes sociales et les dynamiques de pouvoir implicites.
X.4 Traitement des références et de la deixis
L’étude des déictiques (je, ici, maintenant) et des anaphores ancre le discours dans sa situation d’énonciation et assure sa cohésion. Ce sous-chapitre aborde les algorithmes de résolution de coréférence, qui identifient toutes les expressions référant à une même entité. Cette compétence technique est fondamentale en Traitement Automatique des Langues pour des tâches comme le résumé automatique ou la traduction, en assurant que les pronoms sont correctement liés.
Chapitre XI. Approches Sociolinguistiques Quantitatives et Variation
XI.1 Identification et codage des variables sociolinguistiques
Une variable sociolinguistique est une unité linguistique présentant des variations corrélées à des facteurs sociaux (âge, sexe, classe sociale, origine). Cette section enseigne la méthodologie de Labov pour identifier ces variables (phonologiques, lexicales, syntaxiques), les coder et les corréler statistiquement aux données démographiques des locuteurs. Cela permet d’étudier scientifiquement la diffusion d’une innovation linguistique à Bukavu ou la stratification sociale du langage.
XI.2 Mesure du contact de langues et de l’alternance codique
Dans le contexte plurilingue de la RDC, le code-switching n’est pas un défaut mais une stratégie de communication complexe. Ce point présente les modèles formels (ex: Matrix Language Frame) et les métriques pour quantifier la fréquence et les types d’alternance codique dans un discours. Analyser ces données permet de mesurer le degré de bilinguisme d’une communauté et de comprendre les fonctions pragmatiques de ce phénomène dans les interactions quotidiennes.
XI.3 Analyse quantitative des attitudes linguistiques
Quantifier les attitudes envers les langues (nationales, officielles, vernaculaires) est crucial pour toute politique linguistique éclairée. Ce sous-chapitre détaille la technique du “matched-guise” et la construction de questionnaires à échelle de Likert pour mesurer le prestige et la vitalité perçus des langues. Les résultats de telles études fournissent des données probantes pour orienter les décisions en matière d’aménagement linguistique et d’éducation en RDC.
XI.4 Principes de la dialectométrie
La dialectométrie applique des mesures de distance statistique pour cartographier les variations géographiques entre parlers. En agrégeant des centaines de variables linguistiques, cette approche permet de visualiser les continuums dialectaux et de tracer des isoglosses de manière objective, sans a priori. Appliquer cette méthode aux variantes du Swahili dans l’Est de la RDC permettrait de produire un atlas linguistique dynamique et de mieux comprendre l’histoire des contacts de populations.
Chapitre XII. Introduction à l’Ingénierie Linguistique et au Traitement Automatique des Langues (TAL)
XII.1 Chaîne de traitement et tâches fondamentales du TAL
Le Traitement Automatique des Langues (TAL) vise à doter les machines de la capacité à analyser et générer le langage humain. Cette section présente la chaîne de traitement canonique, de la tokenisation à l’analyse sémantique, et les tâches fondamentales comme la traduction automatique, la reconnaissance d’entités nommées et l’analyse de sentiment. Comprendre cette architecture est le premier pas pour devenir un ingénieur linguiste capable de concevoir des solutions concrètes.
XII.2 Apprentissage automatique pour le TAL
Les approches modernes du TAL reposent massivement sur l’apprentissage automatique (Machine Learning). Ce sous-chapitre offre une introduction conceptuelle aux principaux algorithmes (supervisés, non supervisés) et à leur application pour des tâches linguistiques. L’étudiant comprendra comment un modèle peut “apprendre” à traduire ou à classifier des textes à partir de grands volumes de données, une compétence au cœur des métiers d’analyste de données linguistiques.
XII.3 Constitution de ressources linguistiques pour le TAL
Pour qu’un modèle de TAL fonctionne, il nécessite des ressources linguistiques massives : corpus annotés, lexiques, dictionnaires électroniques. Ce point aborde les défis et les méthodes pour construire de telles ressources, particulièrement pour les langues “sous-dotées” comme la plupart des langues congolaises. L’étudiant sera initié aux projets de science participative et aux techniques d’amorçage (bootstrapping) pour pallier le manque de données existantes.
XII.4 Cas d’application pour les langues congolaises
Le développement d’applications TAL pour les langues congolaises (Swahili, Lingala, Tshiluba, Kikongo) représente un immense potentiel socio-économique. Cette section explore des cas d’usage concrets : création de correcteurs orthographiques, de claviers prédictifs, de systèmes de traduction pour l’administration ou le commerce, et d’agents conversationnels pour la diffusion d’informations sanitaires. L’étudiant saisira comment ses compétences peuvent directement contribuer à l’innovation locale.
ANNEXES
A. Vade-mecum des Formules de Statistique Linguistique
Face à la nécessité d’une quantification rigoureuse des faits de langue, ce vade-mecum synthétise les formules statistiques essentielles. De la loi de Zipf pour l’analyse de fréquence lexicale au test du Khi-deux pour évaluer la dépendance entre variables catégorielles, chaque outil est présenté avec son domaine d’application linguistique. Il constitue un référentiel opérationnel pour l’analyse de corpus congolais, qu’il s’agisse de discours politiques, de productions littéraires ou de données issues des réseaux sociaux.
B. Cartographie des Langues de la RDC et Ressources Corpus
Une connaissance exhaustive du patrimoine linguistique congolais est le prérequis à toute analyse pertinente. Cette annexe fournit une cartographie actualisée des aires linguistiques en RDC, incluant les quatre langues nationales et des groupes moins documentés. Elle détaille les protocoles de collecte de données sur le terrain et les liens vers les bases de données existantes. L’objectif est de doter le futur analyste des ressources pour constituer des corpus représentatifs, base de toute ingénierie linguistique localisée.
C. Guide des Outils Open-Source pour l’Analyse Textuelle
Sous l’angle de l’autonomie professionnelle, la maîtrise des logiciels d’analyse est non-négociable. Ce guide pratique présente une sélection d’outils open-source (AntConc, R, bibliothèques Python comme NLTK) et leurs procédures d’installation. Pour chaque logiciel, les fonctionnalités clés — de la création de concordanciers à l’analyse thématique automatisée — sont expliquées. Il s’agit de rendre l’étudiant immédiatement opérationnel pour des missions de consultant en analyse de données textuelles sans dépendre de licences coûteuses.
Discussion (0)
Aucune intervention pour le moment. Soyez le premier à contribuer.
Votre intervention Annuler la réponse