Comment créer des mots inventés crédibles ? Les chaînes de Markov expliquées

Découvrez comment les chaînes de Markov permettent de générer des mots entièrement nouveaux mais parfaitement prononçables — et pourquoi les linguistes, auteurs et designers s'en servent.

Un nom de fantasy en 3 secondes

Vous rédigez un roman de fantasy et vous avez besoin d'un nom pour votre cité secrète. Vous essayez « Valdor », « Miraen », « Sylthara » — mais comment s'assurer qu'un nom sonne fantaisiste sans être imprononçable ? La réponse vient des mathématiques : les chaînes de Markov.

Le principe en une phrase

Une chaîne de Markov est un modèle probabiliste qui dit : « sachant les derniers N éléments, quelle est la probabilité du suivant ? ». Appliqué aux lettres d'une langue, cela donne un moteur capable de générer des séquences qui ressemblent à cette langue sans jamais répéter ses mots.

Construction du modèle

L'algorithme parcourt un corpus de mots réels et construit une table de transitions. Pour l'ordre 2 en français, la table retient pour chaque paire de lettres (« ar », « en », « ou »…) la distribution de la lettre suivante. En français, après « qu » vient « e » dans 93 % des cas — le modèle le capte automatiquement.

La génération fonctionne ensuite par tirage successif : on part d'une séquence de début connue, on tire la lettre suivante selon les probabilités apprises, on avance, et on s'arrête quand on atteint la longueur cible ou un marqueur de fin de mot.

Ordre 1, 2 ou 3 : quel impact ?

L'ordre 1 ne regarde qu'une lettre en arrière : les mots générés sont inventifs mais parfois composés de groupes de consonnes invraisemblables. L'ordre 2 (deux lettres de contexte) est le sweet spot : on obtient des mots qui sonnent comme la langue source sans en reproduire les mots. L'ordre 3 produit des mots très proches de la langue réelle — parfois trop proches, au risque de générer accidentellement des mots existants.

Les usages concrets

  • Worldbuilding : noms de peuples, villes, dieux fictifs cohérents avec une culture imaginaire.
  • Naming de marque : un mot court, mémorisable, dépourvu de sens littéral — exactement ce que cherchent les agences de branding.
  • Jeux vidéo procéduraux : générer des centaines de noms de planètes ou de PNJ cohérents sans les écrire à la main.
  • Test linguistique : évaluer la robustesse d'un moteur TTS ou d'un système ASR sur des séquences phonétiquement valides mais sémantiquement vides.

Limites et améliorations

Le modèle de Markov reste aveugle à la sémantique : il ne sait pas qu'un mot « sonne guerrier » ou « évoque la douceur ». Pour aller plus loin, on peut combiner la génération Markov avec un scoring phonesthétique (association son-sens étudiée en psycholinguistique) ou entraîner le modèle sur des sous-corpus thématiques — par exemple uniquement les noms de dieux dans la mythologie grecque pour obtenir un style cohérent.

Notre générateur de mots inventés permet justement de coller son propre corpus pour orienter le style : collez vos dix mots préférés d'un univers fictif, et le modèle en extrapolera des dizaines d'autres.

🔍 Mots-clés :
mots inventés chaînes de Markov génération procédurale worldbuilding nom de marque linguistique computationnelle