quaternum.net
Menu

2026-01-05

Balisage etc.

There are only two families of proper arbitrary markup languages: TeX and SGML. By arbitrary, I mean the grammar specifically, and how it can be used to mark arbitrary plain text with information. And by proper, I mean the ability to have standalone nodes, user-definable nodes, nodes with attributes, and the wrapping of plain text. Everything else either lacks one of the these capabilities, or is a derivative or syntactic makeover of TeX or SGML.
Ginger Bill, The Only Two Markup Languages, https://www.gingerbill.org/article/2026/01/19/two-families-of-markup-languages/

Ce billet explique avec différents arguments qu’il n’y a que deux grandes familles de balisage, TeX et SGML (et donc par extension XML), et que toutes les autres tentatives ne sont pas des langages de balisage corrects ou adaptés. Pour Ginger Bill, Markdown ou troff sont par exemple des langages qui ont une signification sémantique procédurale, ce qui pose problème pour une interprétation stricte ou pour les étendre (l’exemple du balisage d’un lien hypertexte est donné, il s’agit d’une forme spécifique et non trivial : [texte](lien)). Cette petite étude ne s’arrête donc que sur la syntaxe, en critiquant la distinction habituelle entre des langages (présentationnel, procédurale ou descriptif), ce qui est en soit très intéressant pour toute personne qui porte un intérêt aux questions de structuration du texte. Je suis plus dubitatif sur le fait de ne pas évoquer le fait que TeX est aussi un langage programmatique, qui peut ainsi contenir des commandes, et donc qu’il ne faut, selon moi, ne pas le considérer comme un langage de balisage. TeX et LaTeX fonctionnent à partir de commandes, qui peuvent jouer un rôle de balises, mais le format n’a pas été pensé pour avoir une fonction sémantique (même s’il l’a, de fait). Ce billet m’intéresse car il permet de décentrer mon approche habituelle : regrouper d’abord les langages textuels dans des catégories, comme Markdown et SGML dans la catégorie sémantique, et troff et (La)TeX dans la catégorie composition typographique.

Via David.