Étudiant utilisant un logiciel de traitement de données linguistiques sur un ordinateur.

NTIC appliquées aux langues et littératures

Digitalisation et exploitation technologique du patrimoine linguistique et littéraire.

Édition 2026 – Réforme LMD – Enseignement supérieur et universitaire en RDC.

Code Officiel : NCA1121
Domaine : Domaine de Lettres, Langues et Arts
Filière : Lettres et Sciences Humaines
Mention : Lettres et Civilisations Africaines et Congolaises
Année d’étude : Licence 1
Semestre : Semestre 2

Consulter les Modalités, Compétences et Débouchés

Cette Unité d’Enseignement, articulée autour d’un unique Élément Constitutif (EC1) dédié aux Logiciels des langues, est conçue pour une intégration modulaire au sein de divers parcours académiques. En conséquence, le volume horaire et le nombre de crédits ECTS alloués sont déterminés de manière flexible en fonction du cursus d’accueil, assurant ainsi une parfaite adéquation avec les exigences spécifiques de chaque programme de formation et une articulation pédagogique optimale.

Bien que non affiliée à un diplôme unique et prédéfini, cette unité d’enseignement confère une spécialisation de haute valeur ajoutée, positionnant les apprenants à l’intersection stratégique des humanités numériques et de la linguistique computationnelle. Son caractère fondamentalement interdisciplinaire permet d’enrichir et de valoriser des diplômes en Lettres, en Sciences de l’Information et de la Communication, ou en Ingénierie, en y intégrant une dimension technologique appliquée, indispensable à l’innovation contemporaine.

L’objectif central est de conférer des compétences opérationnelles avancées pour le traitement des données linguistiques africaines. Au-delà de la simple maîtrise des logiciels spécialisés, les étudiants développeront une capacité d’analyse pour structurer, annoter et exploiter des corpus complexes. Cette expertise pratique est cruciale pour transformer des données linguistiques brutes en ressources numériques structurées, assurant ainsi la préservation et la valorisation du patrimoine linguistique continental.

Cette formation prépare à des professions d’avenir telles que l’Ingénieur en technologie des langues, concepteur des outils d’analyse ; le Gestionnaire de bibliothèque numérique, architecte de l’accès au savoir ; et le Documentaliste multimédia spécialisé, médiateur du contenu culturel. Sur le marché de l’emploi en RDC, ces profils sont d’une importance capitale : ils répondent au besoin stratégique de numérisation du patrimoine, soutiennent l’émergence d’une économie numérique souveraine et garantissent la visibilité des langues nationales dans l’espace digital mondial.

PRÉLIMINAIRES

I. Note à l’attention de l’étudiant congolais

Ce manuel n’est pas un simple recueil de savoirs, mais un instrument de capacitation stratégique. Il est conçu pour vous positionner à l’avant-garde de la valorisation du patrimoine linguistique et littéraire de la République Démocratique du Congo. Chaque chapitre vous dote d’une compétence technique monétisable, transformant votre passion pour les lettres en une expertise numérique demandée. L’objectif est de faire de vous un acteur clé de l’économie du savoir, capable de créer des solutions locales pour des défis culturels et économiques globaux.

II. Compétences visées et débouchés professionnels

L’achèvement de cette Unité d’Enseignement certifie votre capacité à utiliser des logiciels spécialisés pour le traitement de corpus linguistiques africains. Vous serez apte à numériser, structurer et analyser des données textuelles et orales complexes. Cette maîtrise technique ouvre la voie à des carrières d’avenir telles qu’ingénieur en technologie des langues, architecte de bibliothèques numériques pour les institutions culturelles (musées, archives nationales), ou encore documentaliste multimédia spécialisé dans la gestion de fonds patrimoniaux congolais.

III. Méthodologie du cours et système d’évaluation

Adoptant une approche résolument pragmatique, ce cours combine des exposés théoriques denses avec des ateliers pratiques sur machine. L’évaluation est continue et axée sur la production concrète. Elle se compose de la réalisation d’un projet de numérisation et d’annotation d’un micro-corpus (oral ou écrit) en langue congolaise, de la soumission d’exercices techniques hebdomadaires et d’un examen final pratique évaluant la maîtrise de la chaîne de traitement logicielle enseignée. La réussite sanctionne une compétence opérationnelle immédiate.

IV. Glossaire des acronymes et termes techniques

Une maîtrise terminologique précise est impérative. Ce glossaire définit les concepts fondamentaux qui structurent le champ des humanités numériques. Des termes comme NTIC (Nouvelles Technologies de l’Information et de la Communication), OCR (Optical Character Recognition), XML-TEI (eXtensible Markup Language – Text Encoding Initiative), ou encore “corpus” et “métadonnée” sont explicités. Leur assimilation est une condition sine qua non pour naviguer avec aisance dans l’écosystème technologique de la linguistique computationnelle.

PARTIE 1 : FONDEMENTS ET ACQUISITION DES DONNÉES LINGUISTIQUES

Chapitre I. Introduction aux Humanités Numériques en Contexte Africain

I.1 Définition et périmètre des Humanités Numériques

Discipline à la croisée des sciences humaines et de l’informatique, les Humanités Numériques appliquent des outils computationnels à des objets d’étude traditionnels. Ce sous-chapitre délimite le champ en montrant comment l’analyse de données massives, la modélisation ou la visualisation cartographique renouvellent l’étude des textes littéraires et des dynamiques linguistiques. Pour la RDC, cela signifie outiller la recherche pour traiter à grande échelle son immense patrimoine oral et écrit, souvent sous-exploité.

I.2 Panorama historique des NTIC et leur impact sur les sciences du langage

L’évolution fulgurante des technologies de l’information a radicalement transformé les méthodologies en linguistique. De la simple indexation de mots à l’analyse sémantique par intelligence artificielle, ce point retrace les étapes clés de cette révolution. Il démontre comment la baisse du coût de stockage et l’augmentation de la puissance de calcul permettent aujourd’hui d’envisager des projets d’analyse à grande échelle sur les langues congolaises, chose impensable il y a vingt ans.

I.3 Spécificités des langues et littératures congolaises face au numérique

Face au défi de la sous-représentation numérique, l’étude des spécificités de nos langues est un préalable. Ce segment analyse les obstacles techniques : complexité des systèmes tonals, richesse morphologique, variabilité dialectale et prédominance de l’oraliture (“littérature orale”). Il s’agit de comprendre ces verrous pour développer des méthodes de transcription, d’annotation et de traitement adaptées, assurant une représentation fidèle de la richesse linguistique du bassin du Congo.

I.4 Enjeux socio-économiques de la digitalisation du patrimoine linguistique en RDC

Au-delà de la simple préservation, la digitalisation du patrimoine linguistique est un levier de développement. Ce sous-chapitre cartographie les opportunités économiques : création de contenus éducatifs numériques en langues locales, développement d’applications mobiles (traducteurs, dictionnaires), valorisation touristique par la réalité augmentée, et renforcement de l’industrie créative. L’étudiant saisira comment sa compétence technique s’insère directement dans des chaînes de valeur créatrices d’emplois et de richesse.

Chapitre II. Constitution de Corpus Numériques : de la Source à la Donnée

II.1 Principes de la collecte et de la numérisation des sources

Une démarche rigoureuse de collecte garantit la représentativité et la fiabilité scientifique du corpus. Cette section détaille les protocoles de sélection des sources (manuscrits, imprimés, enregistrements sonores) et les techniques de numérisation haute-fidélité. L’accent est mis sur les aspects éthiques et légaux, notamment le droit d’auteur et le consentement éclairé pour la collecte de données orales, un enjeu majeur dans le contexte de la collecte de récits traditionnels en RDC.

II.2 Technologies de Reconnaissance Optique de Caractères (OCR) et leur adaptation

La technologie OCR transforme les images de texte en données textuelles exploitables, mais son efficacité varie. Ce point technique expose le fonctionnement des moteurs OCR et les défis posés par les documents anciens ou les typographies spécifiques. Il présente des stratégies pour améliorer les résultats, y compris l’entraînement de modèles sur des alphabets de langues congolaises (avec leurs caractères spéciaux), afin de fiabiliser la numérisation de masse des archives nationales ou de la presse historique.

II.3 Transcription et annotation de corpus oraux

Le passage de l’oral à l’écrit structuré constitue une étape critique pour l’étude de l’oraliture. Ce segment enseigne les standards de transcription orthographique et phonétique (API) et les logiciels d’aide à la transcription (ex: ELAN). L’étudiant apprendra à segmenter un enregistrement, à identifier les locuteurs et à annoter les phénomènes para-linguistiques, transformant une simple bande sonore d’un conte Mbala ou d’un discours en lingala en un objet d’analyse scientifique précis.

II.4 Structuration des données avec les langages de balisage (XML-TEI)

Fondement de l’interopérabilité, le balisage en XML selon les directives de la Text Encoding Initiative (TEI) permet d’enrichir un texte brut avec des informations sémantiques. Ce sous-chapitre initie à la syntaxe XML et aux balises TEI essentielles pour décrire la structure d’un poème, d’une pièce de théâtre ou d’un dictionnaire. Cette compétence est cruciale pour produire des éditions numériques savantes et pérennes, exploitables par les chercheurs du monde entier.

Chapitre III. Logiciels Fondamentaux pour le Traitement de Texte et de Corpus

III.1 Introduction aux logiciels de traitement de texte avancé et aux éditeurs de code

Au-delà des traitements de texte classiques, la maîtrise d’éditeurs de code (comme VS Code ou Notepad++) est indispensable pour manipuler des fichiers de données brutes (TXT, XML, CSV). Cette section explique la différence fondamentale entre un document formaté et un fichier de données structurées. L’étudiant apprendra à utiliser les expressions régulières (RegEx) pour effectuer des opérations de recherche et de remplacement complexes, une compétence de base pour le nettoyage de données textuelles.

III.2 Utilisation des concordanciers pour l’analyse lexicale (AntConc)

L’analyse de la fréquence et du contexte d’un mot est rendue possible par les concordanciers. Ce point présente le logiciel libre AntConc comme outil d’exploration de corpus. L’étudiant apprendra à générer des listes de mots, des concordances (KWIC), des “clusters” et des collocations. Appliqué à un corpus de chansons de rumba congolaise, cet outil peut révéler des motifs thématiques, des évolutions stylistiques ou des spécificités lexicales d’un artiste à l’autre.

III.3 Gestion de bibliographies et de citations avec Zotero ou Mendeley

Une gestion rigoureuse des sources est le pilier de toute recherche académique. Ce sous-chapitre forme à l’utilisation de logiciels de gestion bibliographique comme Zotero. L’étudiant apprendra à collecter, organiser et annoter ses références (articles, livres, sites web, enregistrements) et à générer automatiquement des bibliographies aux normes requises. Cette compétence garantit une traçabilité parfaite de la recherche et un gain de productivité considérable dans la rédaction de travaux scientifiques.

III.4 Initiation aux bases de données pour la gestion de métadonnées linguistiques

Face à la complexité des collections de données, les bases de données offrent une solution structurée pour gérer les informations descriptives (métadonnées). Ce segment introduit les concepts de table, de champ et d’enregistrement via une interface simple (ex: LibreOffice Base). L’étudiant apprendra à concevoir une petite base de données pour cataloguer un ensemble de proverbes Tshiluba, en enregistrant pour chacun sa source, son traducteur, sa thématique et sa localisation géographique.

PARTIE 2 : INGÉNIERIE DE LA DONNÉE LINGUISTIQUE ET LITTÉRAIRE

Chapitre IV. Corpus Linguistiques Numériques : Constitution et Annotation

IV.1 Méthodologies de collecte de données linguistiques

Face à la prédominance de l’oralité dans le patrimoine congolais, la maîtrise des techniques de collecte de terrain est primordiale. Ce point détaille les protocoles d’enregistrement audio/vidéo de haute qualité, les méthodes d’enquête sociolinguistique et la transcription de sources variées (contes, discours politiques, émissions radio). L’objectif est de constituer des corpus authentiques et représentatifs, exploitables pour l’analyse computationnelle des langues nationales comme le kikongo ou le tshiluba, garantissant la préservation de leur diversité.

IV.2 Principes de transcription et de normalisation phonétique (API)

Une transcription rigoureuse constitue le socle de toute analyse linguistique computationnelle. Cette section expose les standards de l’Alphabet Phonétique International (API) et leur application aux spécificités des langues bantoues de RDC. L’étudiant apprendra à segmenter le signal de parole et à normaliser les transcriptions pour éliminer les ambiguïtés. Cette compétence est cruciale pour créer des ressources fiables destinées à la synthèse vocale ou à la reconnaissance automatique de la parole en lingala ou swahili.

IV.3 Techniques d’annotation morphosyntaxique et sémantique

Au-delà du texte brut, l’enrichissement des données par annotation décuple leur potentiel analytique. Ce sous-chapitre forme à l’étiquetage grammatical (Part-of-Speech tagging) et à l’analyse syntaxique (parsing) adaptés aux structures des langues congolaises. Il aborde également l’annotation sémantique (entités nommées, rôles thématiques) pour transformer un corpus textuel en une base de connaissances structurée, essentielle pour les moteurs de recherche intelligents et l’extraction d’information.

IV.4 Utilisation des logiciels d’annotation (ELAN, Praat)

La maîtrise d’outils spécialisés est une compétence centrale de l’ingénieur en technologies des langues. Cette section est un atelier pratique sur les logiciels de référence comme ELAN, pour l’annotation de données audio/vidéo synchronisées, et Praat, pour l’analyse acoustique et prosodique. L’étudiant appliquera ces outils à des enregistrements de terrain en RDC, apprenant à segmenter, transcrire et annoter des interactions verbales complexes, une compétence directement valorisable en recherche et en documentation multimédia.

Chapitre V. Analyse Quantitative et Qualitative des Textes et Discours

V.1 Fondamentaux de la lexicométrie et de la stylométrie

Sous l’angle quantitatif, l’analyse textuelle révèle des structures invisibles à la lecture simple. Ce module introduit les concepts de fréquence, de cooccurrence, de spécificité lexicale et les techniques de stylométrie pour l’attribution d’auteur. L’application de ces méthodes sur des corpus de presse de Kinshasa ou sur l’œuvre de romanciers congolais (e.g., V.Y. Mudimbe, Zamenga Batukezanga) permettra d’identifier des marqueurs stylistiques, des évolutions thématiques et des signatures lexicales distinctives.

V.2 Introduction à l’analyse de sentiment et au Topic Modeling

Une connaissance fine des opinions publiques est un atout stratégique. Ce sous-chapitre explore les algorithmes d’analyse de sentiment pour classifier la polarité (positive, négative, neutre) des discours, notamment sur les réseaux sociaux congolais. Il présente également le Topic Modeling (modélisation de sujets) pour découvrir automatiquement les thèmes latents dans de vastes ensembles de textes, offrant un outil puissant pour la veille médiatique, l’analyse marketing ou l’étude des débats sociétaux.

V.3 Approches de l’analyse critique du discours assistée par ordinateur (ACDAO)

L’analyse de discours outillée par l’informatique permet de déconstruire les idéologies et les rapports de pouvoir. Cette section montre comment combiner les approches qualitatives de l’analyse critique du discours avec la puissance de calcul des outils quantitatifs. L’étudiant apprendra à repérer les constructions lexicales, les métaphores et les cadres argumentatifs dans les discours politiques ou médiatiques en RDC, afin de mettre en lumière les stratégies de persuasion et les enjeux de pouvoir sous-jacents.

V.4 Mise en œuvre avec des outils open-source (AntConc, Iramuteq)

La démocratisation des outils d’analyse textuelle ouvre de nouvelles perspectives pour les chercheurs en sciences humaines. Cet atelier pratique est centré sur la prise en main de logiciels gratuits et puissants comme AntConc pour l’analyse de concordances et de collocations, et Iramuteq pour les analyses factorielles et les classifications hiérarchiques. L’étudiant sera ainsi autonome pour mener ses propres projets d’analyse sur des corpus littéraires ou journalistiques congolais, sans dépendre de solutions logicielles coûteuses.

Chapitre VI. Valorisation et Diffusion Numérique du Patrimoine Littéraire

VI.1 Principes de l’édition numérique critique et de la TEI

Fondée sur le standard international XML-TEI (Text Encoding Initiative), l’édition numérique garantit la rigueur scientifique et la pérennité des textes. Ce sous-chapitre enseigne la structuration sémantique d’un texte littéraire (chapitres, personnages, lieux, variantes manuscrites) à l’aide de balises XML. Maîtriser la TEI est indispensable pour produire des éditions savantes numériques des œuvres du patrimoine congolais, assurant leur interopérabilité et leur exploitation future par la communauté scientifique mondiale.

VI.2 Conception et gestion de bibliothèques numériques

Dépassant la simple numérisation, la création d’une bibliothèque numérique implique une architecture de l’information réfléchie. Cette section aborde les principes de gestion de métadonnées (Dublin Core), l’ergonomie des interfaces de consultation et les systèmes de gestion de contenu (e.g., Omeka). L’étudiant concevra le prototype d’une bibliothèque numérique dédiée à un courant littéraire ou à un auteur de RDC, une compétence clé pour les métiers de documentaliste multimédia et de gestionnaire de patrimoine culturel.

VI.3 Stratégies de visualisation de données littéraires

La visualisation de données transforme l’analyse littéraire en une exploration interactive et heuristique. Ce point présente les techniques pour créer des cartographies des lieux d’un roman, des graphes de réseaux de personnages ou des chronologies dynamiques. Appliquées à des œuvres se déroulant dans l’espace Kivu ou le long du fleuve Congo, ces visualisations offrent de nouvelles portes d’entrée dans les textes et permettent de communiquer les résultats de la recherche à un public plus large de manière percutante.

VI.4 Enjeux du droit d’auteur et de l’archivage pérenne

La digitalisation du patrimoine soulève des questions juridiques et techniques cruciales. Ce sous-chapitre examine le cadre du droit d’auteur en RDC et l’intérêt des licences ouvertes (Creative Commons) pour la diffusion du savoir. Il traite également des stratégies d’archivage numérique à long terme pour lutter contre l’obsolescence des formats et des supports. Cette connaissance est vitale pour garantir un accès durable et éthique aux ressources culturelles numérisées, protégeant à la fois les créateurs et la mémoire collective.

ANNEXES

A. Glossaire technique et comparatif des logiciels

Une maîtrise des outils logiciels constitue le socle de l’ingénierie linguistique. Cette annexe fournit un tableau comparatif et critique des solutions logicielles (ELAN, Praat, AntConc, etc.), évaluant leur pertinence pour l’analyse phonétique, la transcription et la constitution de corpus des langues congolaises. Chaque entrée détaille les fonctionnalités, la courbe d’apprentissage et l’applicabilité concrète pour des projets de documentation linguistique en RDC, offrant un guide décisionnel pour le futur praticien.

B. Guide méthodologique de numérisation d’un conte oral

La transition du patrimoine oral vers le format numérique impose une méthodologie rigoureuse pour garantir la fidélité et la pérennité des données. Ce guide pratique détaille, étape par étape, le processus de numérisation d’un conte oral congolais : de la préparation de la collecte sur le terrain (choix du matériel, consentement éclairé) à la post-production (transcription, annotation sémantique, balisage XML-TEI). L’objectif est de fournir un protocole standardisé pour la création d’archives numériques exploitables.

C. Charte éthique et juridique pour la gestion du patrimoine numérique

Au carrefour du droit d’auteur et des droits culturels communautaires, la digitalisation du patrimoine immatériel soulève des questions cruciales. Cette charte propose un cadre de référence pour une gestion éthique et légale des données linguistiques et littéraires collectées en RDC. Elle aborde les notions de consentement libre, préalable et éclairé, de propriété intellectuelle collective et de juste retour pour les communautés sources, assurant que la technologie serve la préservation culturelle et non l’appropriation.

D. Répertoire des corpus et ressources numériques panafricains

Une recherche efficace en humanités numériques repose sur l’accès à des bases de données fiables. Ce répertoire recense et commente les principaux corpus linguistiques, bibliothèques numériques et projets de recherche panafricains accessibles en ligne. Il vise à outiller l’étudiant pour ses propres travaux en lui indiquant où trouver des textes numérisés, des enregistrements sonores et des outils d’analyse pertinents pour les langues et littératures africaines, favorisant son intégration dans la communauté scientifique internationale.

Discussion (0)

Aucune intervention pour le moment. Soyez le premier à contribuer.

NTIC pour Langues et Littératures en RDC | Cours Universitaire