
Informatique éditoriale
Maîtrise des technologies et des chaînes de publication numérique pour les corpus et répertoires.
Édition 2026 – Réforme LMD – Enseignement supérieur et universitaire en RDC.
- Code Officiel : INE2244
- Domaine : Domaine de Lettres, Langues et Arts
- Filière : Lettres et Sciences Humaines
- Mention : Lexicographie, Terminologie et Traitement Automatique de Corpus
- Année d’étude : Master 2
- Semestre : Semestre 4
Consulter les Modalités, Compétences et Débouchés
Cette unité d’enseignement, représentant un volume de 3 crédits ECTS, est entièrement structurée autour de son unique et fondamental Élément Constitutif : l’Informatique éditoriale. Cette architecture concentrée permet une immersion complète dans les techniques et les outils qui régissent la publication numérique moderne, offrant aux apprenants un parcours intensif et spécialisé pour maîtriser l’ensemble du spectre de la création de documents complexes, de la conception initiale à la diffusion finale.
L’objectif est de transformer les étudiants en véritables architectes de l’information, capables de maîtriser les logiciels d’informatique éditoriale pour une mise en page professionnelle et de gérer des contenus textuels complexes. Au-delà de l’esthétique, ils apprendront la structuration et l’encodage de données de corpus via des formats pérennes comme le XML/TEI, une compétence essentielle pour garantir l’interopérabilité et l’exploitabilité des savoirs. Cette double expertise leur permettra d’administrer de bout en bout des chaînes d’édition électronique, notamment pour des projets ambitieux tels que des dictionnaires de spécialité ou des corpus de recherche.
Cette expertise de pointe ouvre la voie à des carrières stratégiques, particulièrement pertinentes dans le contexte de la transformation numérique en République Démocratique du Congo. Le métier d’Ingénieur d’édition numérique est essentiel pour la modernisation des publications administratives et éducatives. Le Développeur de plateformes lexicographiques joue un rôle crucial dans la valorisation des langues nationales (Lingala, Swahili, etc.) à travers des outils numériques innovants. Enfin, le Chef de projet en publication de corpus numériques devient un acteur clé pour la sauvegarde et la diffusion du patrimoine culturel numérique congolais, pilotant des initiatives qui auront un impact durable sur l’éducation, la recherche et l’identité culturelle du pays.
- PRÉLIMINAIRES
- PARTIE 1 : De la Structuration à l’Encodage : Fondamentaux XML/TEI
- Chapitre I. Genèse et Principes de la Publication Numérique Structurée
- Chapitre II. XML : Syntaxe et Logique de la Donnée Hiérarchisée
- Chapitre III. La TEI : Standardisation de l’Encodage pour les Sciences Humaines
- PARTIE 2 : INGÉNIERIE DE LA PUBLICATION STRUCTURÉE
- Chapitre VII. Le Langage XML-TEI : Fondations de l’Édition Savante
- Chapitre VIII. Transformation et Diffusion : La Chaîne XSLT
- Chapitre IX. Application Spécialisée : Ingénierie Lexicographique Numérique
- ANNEXES
PRÉLIMINAIRES
I. Fondements et Enjeux de l’Informatique Éditoriale
La vision de Michael Sperberg-McQueen, co-fondateur de la TEI, postule que la structuration des textes précède et conditionne leur exploitation numérique. Ce cours adopte cette prémisse pour l’appliquer au patrimoine documentaire congolais, souvent menacé par sa fragilité matérielle. Il s’agit de dépasser la simple numérisation-image pour bâtir des corpus intelligents, interrogeables et pérennes. L’étudiant forgera une vision stratégique lui permettant de piloter la transformation numérique des archives, des bibliothèques et des maisons d’édition en RDC, en garantissant la souveraineté et l’accessibilité des savoirs.
II. Compétences Visées et Débouchés en RDC
Ce module vise l’acquisition d’une triple compétence technique : la modélisation de données textuelles (XML), l’encodage sémantique de corpus (TEI) et le pilotage de chaînes de publication multiformats (PDF, ePub, web). Ces savoir-faire répondent à une demande croissante en RDC pour des profils d’ingénieurs d’édition numérique, de gestionnaires de fonds documentaires pour les institutions (Musée National, Archives Nationales) ou de développeurs de plateformes lexicographiques pour les langues nationales. L’étudiant deviendra un acteur clé de la valorisation économique du patrimoine culturel et scientifique.
III. Méthodologie du Cours et Évaluation
L’approche pédagogique est résolument pragmatique, centrée sur un projet fil rouge : la réalisation d’une édition numérique critique d’un texte ou d’un corpus pertinent pour le contexte congolais. Chaque chapitre théorique est immédiatement suivi d’ateliers pratiques sur des logiciels open source (Oxygen XML Editor, eXist-db). L’évaluation combine un contrôle continu des compétences techniques et la soutenance finale du projet d’édition. L’objectif est de former un praticien autonome, capable de concevoir, réaliser et gérer un projet d’informatique éditoriale de A à Z.
PARTIE 1 : De la Structuration à l’Encodage : Fondamentaux XML/TEI
Chapitre I. Genèse et Principes de la Publication Numérique Structurée
La conférence de Poughkeepsie en 1987 marque l’acte de naissance de la Text Encoding Initiative (TEI), formalisant la nécessité d’un standard pour l’encodage des textes en sciences humaines. Ce chapitre retrace cette genèse pour en extraire les principes fondateurs qui irriguent toute l’informatique éditoriale. En analysant la transition des archives papier de l’administration coloniale vers des bases de données structurées, l’étudiant saisira l’impératif de la séparation du contenu et de la forme. Il développera une compétence d’architecte de l’information, capable de concevoir des systèmes documentaires pérennes.
I.1 Du document-objet au document-processus : une révolution conceptuelle
La vision du document comme un objet fini et stable est obsolète à l’ère numérique. Le cours introduit le concept de document-processus, un ensemble de données structurées et de transformations permettant de générer une infinité de publications. Cette approche, appliquée aux corpus juridiques de l’OHADA, permet de produire simultanément des versions web, imprimées et mobiles à partir d’une seule source de vérité. L’apprenant maîtrisera la modélisation conceptuelle d’un flux éditorial, compétence essentielle pour optimiser les coûts et les délais de production.
I.2 Séparation du contenu, de la structure et de la forme : le triptyque fondateur
Sous l’angle de la pérennité, la fusion du fond et de la forme dans les logiciels de traitement de texte constitue une impasse technique. Ce sous-chapitre dissèque le triptyque fondateur de l’édition structurée, en démontrant comment un même contenu XML peut être stylé différemment pour l’impression (via XSL-FO) ou le web (via CSS). L’application directe sera la création d’un dictionnaire bilingue lingala-français multi-supports. L’étudiant saura concevoir une architecture d’information garantissant l’indépendance totale vis-à-vis des formats et des logiciels propriétaires.
I.3 Interopérabilité et pérennité : les promesses économiques du balisage
Face au chaos des formats propriétaires, le balisage structuré avec des standards ouverts comme XML est un investissement stratégique. Cette section analyse les gains économiques directs liés à l’interopérabilité : réutilisation des contenus, automatisation des conversions, facilitation des échanges de données entre institutions. En étudiant le cas d’une agence de presse à Kinshasa, l’étudiant chiffrera les bénéfices d’une migration vers un flux XML. Il forgera une compétence d’audit et de conseil en stratégie de contenu numérique, hautement valorisée.
I.4 Critique des modèles WYSIWYG et des formats opaques
Une analyse rigoureuse des logiciels de type “What You See Is What You Get” (WYSIWYG) révèle leurs limites pour l’édition scientifique. Leur code sous-jacent, souvent propriétaire et désordonné, interdit toute exploitation sémantique et pérenne des données. Ce module expose les risques de perte d’information et de dépendance technologique liés à ces outils. En comparant l’encodage d’un poème de Bolya Baenga en Word et en XML-TEI, l’étudiant apprendra à justifier techniquement le choix d’une chaîne éditoriale structurée.
Chapitre II. XML : Syntaxe et Logique de la Donnée Hiérarchisée
Le langage XML, souvent mal compris, est un méta-langage dont la puissance réside dans sa simplicité syntaxique et sa rigueur logique. Ce chapitre en expose les mécanismes fondamentaux, non comme une fin, mais comme l’outil universel pour décrire n’importe quelle structure de donnée, des inventaires miniers du Katanga aux répertoires de jurisprudence. L’objectif est de rendre l’étudiant parfaitement autonome dans la lecture, l’écriture et la validation de documents XML. Il acquerra la grammaire de base de tout l’écosystème des données structurées.
II.1 Syntaxe fondamentale : éléments, attributs et entités
Une connaissance approfondie des règles de bonne formation (“well-formedness”) est le socle de toute manipulation XML. Ce segment détaille la syntaxe des balises, la distinction cruciale entre éléments et attributs pour porter l’information, et l’usage des entités pour gérer les caractères spéciaux ou les contenus récurrents. À travers l’exercice pratique de création d’un fichier XML décrivant le catalogue d’une bibliothèque universitaire de Kinshasa, l’étudiant développera une rigueur syntaxique absolue, condition sine qua non de l’interopérabilité des données.
II.2 Espaces de noms (Namespaces) pour la gestion des vocabulaires multiples
Face à la complexité des projets réels, la gestion des conflits de noms entre différents vocabulaires XML est un enjeu majeur. Les espaces de noms offrent une solution élégante en préfixant les éléments pour lever toute ambiguïté. Ce cours démontre leur utilité en intégrant des métadonnées Dublin Core au sein d’un document TEI pour un projet d’archives photographiques du Congo. L’apprenant saura architecturer des documents XML composites et robustes, capables de dialoguer avec plusieurs standards internationaux simultanément.
II.3 Validation des documents : DTD et Schémas XML (XSD)
La validation par Schéma XML (XSD), standardisée par le W3C en 2001, constitue le contrat qui garantit la conformité d’un document à une structure définie. Ce sous-chapitre enseigne la création de ces grammaires formelles pour contraindre les types de données, les cardinalités et les structures hiérarchiques. En modélisant un schéma pour les fiches terminologiques de l’industrie du cobalt, l’étudiant apprendra à concevoir des modèles de données stricts. Il sera capable de garantir la qualité et la cohérence d’une base d’information à grande échelle.
II.4 XPath et XQuery : interroger et extraire des données structurées
D’une puissance chirurgicale, le langage XPath permet de naviguer dans l’arborescence d’un document XML pour en sélectionner précisément n’importe quel nœud. XQuery étend cette capacité pour transformer et recombiner les données extraites. Cette section est éminemment pratique : elle montre comment extraire toutes les prises de parole d’un personnage dans une pièce de théâtre encodée ou comment lister les entreprises d’un secteur donné dans un annuaire XML. L’étudiant maîtrisera l’art de l’interrogation fine des gisements de données structurées.
Chapitre III. La TEI : Standardisation de l’Encodage pour les Sciences Humaines
La Text Encoding Initiative (TEI) est le standard de facto pour la représentation des textes dans le monde académique. Ce chapitre présente sa philosophie, qui est de fournir un vocabulaire XML extrêmement riche et personnalisable pour décrire les phénomènes textuels avec une grande finesse. En se confrontant au défi d’encoder la structure d’un récit oral Mbuun, l’étudiant apprendra à adapter ce standard international aux spécificités du patrimoine culturel congolais. Il développera une expertise en humanités numériques, cruciale pour la recherche et l’édition scientifique.
III.1 Philosophie et modularité des TEI Guidelines
Conçue comme une immense boîte à outils et non comme un carcan, la TEI est organisée en modules activables selon les besoins du projet. Ce cours explique comment naviguer dans les 500+ éléments disponibles et comment construire un sous-ensemble personnalisé (via le format ODD) pour un projet spécifique, comme l’édition de correspondances ou de manuscrits. En définissant un schéma TEI pour l’étude des parlers kinois, l’étudiant apprendra à concevoir un cadre d’encodage sur mesure, alliant la puissance du standard et la spécificité du terrain.
III.2 Encodage des métadonnées : le teiHeader comme carte d’identité du document
Sous l’angle de la traçabilité scientifique, le teiHeader est la section la plus importante d’un document TEI. Il contient toutes les métadonnées décrivant le texte encodé et le projet d’encodage lui-même : source, auteurs, historique des révisions, etc. Ce module enseigne le remplissage rigoureux de cet en-tête, en conformité avec les meilleures pratiques archivistiques. L’étudiant saura produire des documents numériques dont la provenance et la fiabilité sont irréprochables, une compétence indispensable pour travailler avec les institutions patrimoniales de la RDC.
III.3 Structuration du corps du texte : prose, poésie, théâtre
Une maîtrise fine des éléments comme <div>, <p>, <l>, <sp> ou <stage> est essentielle pour représenter fidèlement la macrostructure d’un texte. Ce sous-chapitre couvre les stratégies d’encodage pour les principaux genres littéraires, en insistant sur les cas ambigus. L’exercice consistera à segmenter et baliser un extrait du roman “L’Écart” de V.Y. Mudimbe, en justifiant chaque choix structurel. L’apprenant sera capable de transcrire la logique organisationnelle de n’importe quel document textuel en une arborescence TEI cohérente.
III.4 Annotation sémantique : nommer les entités, les lieux et les concepts
Face au besoin d’analyse computationnelle, l’encodage sémantique enrichit le texte en identifiant et en qualifiant les entités nommées. Ce module se concentre sur l’utilisation des balises <persName>, <placeName>, <orgName> et <term> pour marquer les personnes, lieux, organisations et concepts clés. En appliquant cette technique à des dépêches de l’Agence Congolaise de Presse, l’étudiant transformera un simple texte en une base de connaissances structurée. Il maîtrisera la première étape de la construction d’un graphe de connaissances (Knowledge Graph).
PARTIE 2 : INGÉNIERIE DE LA PUBLICATION STRUCTURÉE
Chapitre VII. Le Langage XML-TEI : Fondations de l’Édition Savante
Le XML générique, par son absence de sémantique prédéfinie, se révèle inopérant pour l’encodage des corpus littéraires ou historiques complexes. La Text Encoding Initiative (TEI) corrige cette lacune fondamentale en proposant un métalangage rigoureux. C’est l’ambition de ce chapitre : maîtriser la syntaxe et la philosophie TEI pour modéliser la complexité d’un manuscrit. L’étudiant saura baliser un texte patrimonial congolais, en distinguant structure physique, divisions logiques et apparat critique, garantissant son interopérabilité pérenne et sa valorisation scientifique.
VII.1 Syntaxe XML et Espace de Noms TEI
Une maîtrise rigoureuse de la syntaxe XML (éléments, attributs, entités) forme le socle indispensable de toute manipulation de données structurées. Ce module se concentre sur la déclaration de l’espace de noms TEI, un acte technique qui ancre le document dans un cadre sémantique internationalement reconnu. L’objectif est de produire des fichiers XML bien formés et valides, capables de résister à l’épreuve du temps et des migrations technologiques, un enjeu crucial pour les archives nationales de la RDC.
VII.2 Le Header TEI : Métadonnées pour la Pérennité
Face au risque d’obsolescence numérique, le header TEI agit comme la carte d’identité inviolable du document. Il formalise l’ensemble des métadonnées descriptives, techniques et administratives : titre, auteur, historique des révisions, droits d’usage, et sources. L’étudiant apprendra à documenter méticuleusement un corpus, par exemple les archives sonores de l’Institut National des Arts, assurant ainsi sa découvrabilité et sa citabilité académique pour les décennies à venir.
VII.3 Encodage des Structures Textuelles Fondamentales
Sous l’angle de la fidélité à la source, ce sous-chapitre aborde le balisage du corps de texte (<body>). Il s’agit de transcrire la hiérarchie structurelle d’un document (parties, chapitres, paragraphes, listes, citations) en utilisant le vocabulaire TEI approprié. L’apprenant sera capable de modéliser la macrostructure de n’importe quel type de document, des romans de V.Y. Mudimbe aux rapports administratifs, préparant le terrain pour une exploitation informatique fine.
VII.4 Apparat Critique et Annotation Sémantique
Une connaissance approfondie des mécanismes d’annotation permet de capturer la richesse intellectuelle d’un texte. Ce segment explore les balises dédiées à l’apparat critique (variantes textuelles, corrections) et à l’annotation sémantique (noms de lieux, de personnes, concepts). L’étudiant forgera la compétence de créer une édition critique numérique d’un texte historique congolais, rendant explicites les strates d’interprétation et les choix éditoriaux, une plus-value décisive pour la recherche en sciences humaines.
Chapitre VIII. Transformation et Diffusion : La Chaîne XSLT
L’approche WYSIWYG, dominante dans l’édition classique, génère des formats propriétaires et non réutilisables. Face à cette impasse technique, la philosophie de la transformation par XSLT s’impose comme la seule alternative industrielle viable pour le contenu structuré. Ce chapitre tranche ce débat en appliquant XSLT à des corpus TEI. Comment générer automatiquement un site web et un PDF prêts à l’impression depuis une source unique ? En répondant, l’apprenant bâtira des chaînes de publication automatisées, réduisant les coûts pour les maisons d’édition de Kinshasa.
VIII.1 Principes de la Transformation XSLT : Templates et XPath
D’une logique déclarative, le langage XSLT permet de définir des règles de transformation pour un document XML source. Ce module dissèque ses deux piliers : XPath pour la sélection précise de nœuds dans l’arborescence XML, et les templates (<xsl:template>) pour définir le résultat de la transformation. L’étudiant apprendra à naviguer dans un document TEI complexe et à en extraire des informations ciblées, compétence fondamentale pour toute opération de traitement de données.
VIII.2 Génération de Formats Web : De XML-TEI à HTML5
Une application directe de ces principes est la publication en ligne. Ce sous-chapitre est dédié à l’écriture de feuilles de style XSLT produisant du HTML5 sémantique et accessible à partir d’une source TEI. L’enjeu est de créer des sites web dynamiques pour la consultation de corpus, comme les répertoires de jurisprudence du droit congolais, en garantissant une séparation stricte entre le fond (XML), la forme (CSS) et le comportement (JavaScript).
VIII.3 Production de Documents Imprimables : La Voie XSL-FO
Face aux exigences de la publication papier, la technologie XSL-FO (Formatting Objects) offre une solution robuste pour la mise en page programmatique. L’étudiant apprendra à générer des fichiers PDF de haute qualité typographique directement depuis la source XML, en contrôlant les polices, les marges, la pagination et les index. Cette compétence permet d’automatiser la production de manuels, de thèses ou de dictionnaires pour le marché local, en contournant les logiciels de PAO traditionnels.
VIII.4 Automatisation des Chaînes de Production avec des Scripts
Au-delà de la transformation unitaire, l’efficacité industrielle repose sur l’automatisation. Ce segment technique enseigne l’utilisation de processeurs XSLT en ligne de commande (comme Saxon) et leur intégration dans des scripts (Shell, Python). L’ingénieur d’édition numérique sera capable de concevoir et déployer un pipeline complet qui, à partir d’un dépôt de fichiers XML, génère et met à jour automatiquement un site web et une collection de PDF, optimisant radicalement les flux de travail éditoriaux.
Chapitre IX. Application Spécialisée : Ingénierie Lexicographique Numérique
Le Lexical Markup Framework (ISO 24613), ou LMF, constitue la colonne vertébrale de la lexicographie computationnelle moderne. Ici, la théorie cède la place à l’ingénierie de données linguistiques. Le cours heurte intentionnellement la structure rigide du LMF aux dynamiques fluides des langues bantoues pour modéliser des dictionnaires bilingues (Lingala-Français). Ce choc méthodologique vise un objectif clair. Il s’agit d’armer l’ingénieur d’édition d’outils pour construire des bases de données lexicographiques exploitables par des applications web et mobiles.
IX.1 Modélisation d’une Entrée Lexicale avec LMF/TEI
Sous l’angle de la granularité sémantique, ce module détaille la structuration d’une entrée de dictionnaire en XML, en conformité avec les standards LMF et TEI-Lex-0. Il s’agit de décomposer l’article lexicographique en ses atomes : vedette, prononciation, étymologie, définitions, exemples. L’étudiant apprendra à construire une base de données lexicale robuste, capable de documenter avec précision la richesse des langues nationales de la RDC.
IX.2 Gestion des Variantes Morphologiques et Phonétiques
Une analyse fine des paradigmes flexionnels et des variations de prononciation est essentielle pour une ressource linguistique utile. Ce sous-chapitre se concentre sur l’encodage des formes déclinées ou conjuguées et la transcription phonétique (API). L’apprenant saura modéliser la morphologie complexe du Swahili de Lubumbashi, une étape indispensable pour le développement futur de correcteurs orthographiques ou d’outils de traduction automatique.
IX.3 Interconnexion des Entrées : Réseaux Sémantiques
Au cœur de la valeur ajoutée d’un dictionnaire numérique se trouve la navigation par le sens. Ce segment est consacré à la création de liens sémantiques entre les entrées : synonymie, antonymie, hyperonymie, et relations thématiques. L’étudiant forgera la compétence de transformer une liste de mots en un véritable réseau lexical, ouvrant la voie à des applications d’aide à la rédaction et d’exploration conceptuelle.
IX.4 Déploiement d’un Dictionnaire en Ligne : de la Base XML à l’Interface Web
La finalité de l’ingénierie lexicographique réside dans la consultation effective par les usagers. Ce module synthétise les compétences acquises en guidant l’étudiant dans le déploiement d’un prototype de dictionnaire en ligne. Il s’agira de coupler la base de données XML à un moteur de recherche et une interface web ergonomique, démontrant une maîtrise complète de la chaîne de valeur, de la modélisation de la donnée linguistique à sa diffusion numérique.
ANNEXES
A. Memento TEI pour la Lexicographie
Face à la complexité des directives TEI complètes, ce memento synthétise le sous-ensemble de balises XML essentiel à l’encodage de dictionnaires. L’accent est mis sur la structuration des entrées, des définitions, des exemples et des variantes morphologiques, avec des adaptations spécifiques pour les langues bantoues parlées en RDC. La maîtrise de ce guide assure une production de données lexicographiques interopérables et pérennes, prêtes pour l’intégration dans des plateformes numériques nationales ou internationales.
B. Étude de Cas : Numérisation du Corpus Juridique Minier (RDC)
La révision du Code minier de 2018 a généré un corpus juridique dense, dont la diffusion numérique est un enjeu de gouvernance majeur en RDC. Cette étude de cas détaille le projet pilote de structuration XML-TEI de ces textes, depuis la numérisation des documents officiels jusqu’à la création d’une plateforme de consultation en ligne. L’analyse des choix techniques et des défis logistiques arme l’étudiant pour piloter des projets d’ingénierie documentaire à forte valeur ajoutée pour l’État.
C. Guide d’Installation d’une Chaîne Éditoriale Open Source
Face au coût des solutions logicielles propriétaires, la viabilité de l’édition numérique en RDC repose sur l’écosystème open source. Ce guide technique fournit une procédure pas-à-pas pour déployer une chaîne de publication complète (Git, Pandoc, Tufte CSS, GitLab Pages) sur une infrastructure locale ou à faible coût. L’objectif est de conférer à l’étudiant une autonomie technique totale, lui permettant de produire et de diffuser des documents scientifiques et culturels de qualité professionnelle sans dépendre de licences onéreuses.
D. Grille d’Analyse des Droits de Propriété Intellectuelle (Corpus Numériques)
Une connaissance approfondie des dynamiques de la propriété intellectuelle est un prérequis à toute initiative de publication numérique. Cette grille propose un cadre d’analyse systématique pour évaluer la situation juridique d’un corpus, notamment pour le patrimoine oral et les savoirs traditionnels congolais, en distinguant droit d’auteur, domaine public et licences libres (Creative Commons). L’étudiant forgera ainsi la compétence d’auditeur, capable de sécuriser juridiquement un projet d’édition et de garantir une diffusion éthique des biens culturels.
Comment la TEI, au-delà du balisage, redéfinit-elle l’herméneutique des textes et leur exploitation computationnelle dans les humanités numériques ?
Quelle est l’incidence des modèles de langage génératifs sur la notion d’auctorialité et la chaîne de valeur éditoriale traditionnelle ?
📚 Source :Travaux de Jean-Gabriel Ganascia sur stylométrie via Cairn.info
En quoi le paradoxe de la préservation numérique, où l’on sauvegarde tout mais potentiellement rien, menace-t-il la pérennité des archives éditoriales ?
📚 Source :Travaux de Brewster Kahle sur digital preservation via JSTOR
Discussion (0)
Aucune intervention pour le moment. Soyez le premier à contribuer.
Votre intervention Annuler la réponse