Diriger une émotion en IA ne consiste pas à empiler des adjectifs, mais à écrire une partition précise : les muscles du visage (système FACS), l’état affectif (modèle PAD) et la qualité du mouvement (analyse de Laban). Cette méthode remplace la « physique floue » du langage naturel par un contrôle reproductible, cohérent d’une image à l’autre.

La plupart des gens écrivent « un regard triste, un mouvement gracieux » et obtiennent du hasard. Un directeur, lui, ne décrit pas une émotion. Il la dirige. Avec une intention claire, une partition précise, et la patience de regarder ce qui revient.
Ce guide rassemble trois systèmes que la recherche utilise pour rendre une émotion et un geste reproductibles. Aucun n’a été inventé pour l’IA. Tous viennent du théâtre, de la psychologie et de la chorégraphie. C’est précisément ce qui les rend solides : ils décrivent l’humain avant de décrire la machine.
Ce qu’il faut retenir
- Le langage naturel est ambigu. « Triste » peut produire mille visages. Une formule musculaire en produit un, encore et encore.
- Le FACS (Facial Action Coding System) décompose toute expression en unités musculaires appelées Action Units. Une émotion devient une addition d’AU, modulable en intensité.
- Un sourire sincère se code AU6 + AU12. Un sourire poli, AU12 seul. La différence entre les deux est tout votre métier.
- Le modèle PAD distingue deux émotions négatives par leur niveau d’activation : la rage et l’ennui ne se prompttent pas de la même façon.
- L’analyse de Laban décrit la qualité d’un geste sur quatre dimensions : forme, énergie, espace, corps. C’est la différence entre « il marche » et « il avance, contenu, soutenu ».






La méthode : La Partition
Avant les outils, une méthode. Je l’appelle La Partition, parce qu’une émotion réussie ressemble moins à une description qu’à un score musical : des notes précises, jouées dans un certain ordre, avec une certaine intensité.
La Partition : quatre couches, de l'intention à la continuité
Diriger une émotion en IA suit une partition, pas une liste d'adjectifs. Quatre couches répondent chacune à une question et produisent un livrable. On lit du centre vers l'extérieur.
Arbre radial de la méthode dite la Partition. Au centre, la Partition. Quatre branches : Intention, Partition, Prompt, Continuité. Chaque branche porte une question à résoudre et un livrable concret.
Les quatre couches répondent chacune à une question simple :
| Couche | La question | Le livrable |
|---|---|---|
| Intention | Que doit ressentir le sujet, vraiment ? | Une position sur les axes PAD |
| Partition | Quels signes rendent cette émotion lisible ? | Une formule FACS, une qualité Laban |
| Prompt | Comment écrire cela comme un brief, pas une liste de mots ? | Une invite structurée |
| Continuité | Comment garder le même personnage d'une image à l'autre ? | Un protocole d'identité et d'intensité |
Cette structure prolonge une idée que je répète en formation : on ne cherche pas une belle image, on construit un système qui en produit plusieurs, cohérentes.
1. Le problème : pourquoi vos émotions IA sonnent faux
Deux pannes reviennent sans cesse.
La première est la dérive identitaire. Dès qu'on pousse une expression intense, le visage du personnage change. Les modèles de diffusion standard peinent à tenir ensemble deux exigences contradictoires : préserver l'identité (le casting virtuel) et faire varier l'émotion. Le résultat : un sourire transforme la personne en quelqu'un d'autre.
La seconde est la physique floue (fuzzy physics). En vidéo, traduire un langage informel en coordonnées réelles produit des artefacts bien connus : pieds qui glissent, articulations impossibles, corps qui perd sa rigidité. La machine devine la physique au lieu de l'exécuter.
2. Diriger le visage avec le FACS

Le Facial Action Coding System est le standard scientifique mondial pour décrire un visage. Conçu par Carl-Herman Hjortsjö, puis formalisé par Paul Ekman et Wallace V. Friesen en 1978, mis à jour en 2002, il repose sur un manuel de plus de cinq cents pages. Son principe : toute expression se décompose en Action Units (AU), chacune correspondant à la contraction d'un muscle ou d'un groupe de muscles.
Au lieu de décrire une émotion de façon subjective, on spécifie les contractions exactes. "Un regard sournois" devient une combinaison d'AU. L'ambiguïté disparaît.
Intensité et latéralité
Deux modificateurs transforment une AU en instruction de mise en scène.
| Modificateur | Code | Signification |
|---|---|---|
| Intensité minimale | A | Trace d'activation, à peine perceptible |
| Intensité légère | B | Présente mais discrète |
| Intensité marquée | C | Nette |
| Intensité forte | D | Prononcée |
| Intensité maximale | E | Activation musculaire complète |
| Côté droit | R | Mouvement sur la droite uniquement |
| Côté gauche | L | Mouvement sur la gauche uniquement |
| Unilatéral | U | Un seul côté, non spécifié |
| Asymétrique | A* | Bilatéral mais asymétrique |
C'est ici que se joue la nuance. Un mépris discret se code R12A, soit une traction de la commissure droite à intensité minimale. Le même geste à intensité E n'est plus du mépris, c'est une grimace.
La grille de référence
Voici les Action Units documentées, classées par zone. Utilisez-les comme un nuancier : on ne joue jamais toutes les notes, on en choisit quelques-unes.
| Code | Description anatomique | Effet d'expression |
|---|---|---|
| AU1 | Élévation interne des sourcils | Tristesse, inquiétude, détresse |
| AU2 | Élévation externe des sourcils | Surprise, incrédulité, questionnement |
| AU4 | Abaissement et rapprochement des sourcils | Colère, douleur, effort |
| AU5 | Élévation de la paupière supérieure | Yeux écarquillés, choc, peur |
| AU6 | Élévation des joues | Plissement orbital, sourire sincère dit "de Duchenne" |
| AU7 | Tension des paupières | Suspicion, focus |
| AU9 | Plissement du nez | Dégoût, répulsion |
| AU10 | Élévation de la lèvre supérieure | Dégoût marqué |
| AU11 | Accentuation du sillon nasolabial | Tristesse |
| AU12 | Étirement oblique des commissures | Sourire volontaire, social |
| AU13 | Étirement aigu de la commissure | Sourire pincé, ironique |
| AU14 | Fossettes (Dimpler) | Ironie |
| AU15 | Abaissement des commissures | Moue de tristesse, déception |
| AU16 | Abaissement de la lèvre inférieure | Tristesse, cri |
| AU17 | Élévation du menton | Moue, doute, bouderie |
| AU18 | Avancement des lèvres | Baiser, sifflement |
| AU20 | Étirement latéral des lèvres | Peur, tension |
| AU22 | Lèvres en entonnoir | Prononciation, surprise |
| AU23 | Tension des lèvres | Colère, détermination |
| AU24 | Compression des lèvres | Silence, colère contenue |
| AU25 | Séparation des lèvres | Parole, surprise légère |
| AU26 | Abaissement de la mâchoire | Surprise, choc, passivité |
| AU27 | Étirement vertical de la bouche | Cri, terreur, bâillement |
| AU28 | Aspiration des lèvres | Réflexion |
| AU41 | Affaissement de la paupière | Fatigue, regard séducteur |
| AU42 | Yeux mi-clos | Suspicion |
| AU43 | Yeux fermés | Sommeil, méditation |
| AU44 | Clignement plissé (Squint) | Concentration |
| AU45 | Clignement temporaire (Blink) | Transition rapide |
| AU46 | Clin d'œil (Wink) | Complicité, séduction |
| AU51 / AU52 | Rotation de tête gauche / droite | Orientation latérale |
| AU53 / AU54 | Inclinaison haut / bas | Fierté / honte, soumission |
| AU55 / AU56 | Penchement gauche / droite | Curiosité, écoute |
| AU57 / AU58 | Projection avant / recul | Agressivité / peur |
| AU61 / AU62 | Regard gauche / droite | Mouvement oculaire latéral |
| AU63 / AU64 | Regard haut / bas | Exaspération / timidité, culpabilité |
| AU71 / AU72 | Sillon et renflement intersourciliers | Colère, tension |
| AU81 | Mastication | Tension nerveuse |
| AU82 | Dilatation des narines | Colère, effort, panique |
Les formules d'émotion prêtes à l'emploi
Les émotions universelles se traduisent par des combinaisons stables. Gardez ce tableau sous la main.
| Émotion | Formule (Action Units) | Intensité conseillée |
|---|---|---|
| Surprise | AU1 + AU2 + AU5B + AU26 | Modérée (5B évite l'écarquillement excessif) |
| Tristesse | AU1 + AU4 + AU15 | Marquée (C ou D sur AU15) |
| Joie sincère | AU6 + AU12 | Variable selon le degré recherché |
| Peur | AU1 + AU2 + AU4 + AU5 + AU7 + AU20 + AU26 | Élevée (D ou E) |
| Colère | AU4 + AU5 + AU7 + AU23 | Intense, focalisée sur le regard |
| Dégoût | AU9 + AU15 + AU17 | Marquée en médio-facial |
| Mépris | R12A + R14A | Faible (A ou B), pour un effet subtil |
Retenez la paire AU6 + AU12. AU12 seul produit un sourire de politesse, étiré mais froid. Ajoutez AU6, l'élévation des joues, et le sourire devient sincère : c'est le sourire de Duchenne. La plupart des portraits IA ratés sourient sans AU6. Ils sourient de la bouche, pas des yeux.
Ces codes s'injectent directement dans les modèles avancés : GPT Image, Seedance, Nano Banana, et dans une moindre mesure Midjourney, qui répond mieux à un mélange de formule FACS et de langage descriptif court.
Tester la partition FACS avec Expression Lab

Expression Lab est un générateur de prompts FACS interactif. L’outil permet de composer une expression faciale à partir des Action Units : sourcils, paupières, joues, bouche, menton, intensité et combinaisons émotionnelles.
Au lieu de rester dans une description vague comme “un sourire subtil” ou “un visage inquiet”, vous manipulez directement les unités musculaires sur un visage filaire, puis l’outil génère un prompt structuré prêt à copier. C’est une façon simple de transformer la partie FACS de la Partition en interface : choisir les signes, régler leur intensité, vérifier l’équilibre de l’expression, puis passer au prompt.
Expression Lab ne remplace pas la méthode PAD/FACS/Laban décrite ici : il en isole la couche visage pour la rendre plus rapide à tester. Il sert de passerelle entre l’intention émotionnelle et l’écriture précise du prompt.
3. Diriger l'état intérieur avec le PAD
Le FACS décrit la surface. Mais une émotion juste a une profondeur. Le modèle PAD (Pleasure, Arousal, Dominance), formulé par Albert Mehrabian et James Russell en 1974, projette tout état affectif sur trois axes.
- Plaisir : l'état est-il agréable ou désagréable ?
- Activation : quelle énergie, quelle excitation physiologique ? C'est l'axe qui sépare la rage (forte activation) de l'ennui (faible activation).
- Dominance : le sujet est-il en contrôle ou subit-il ? C'est l'axe qui sépare la colère (dominante) de la peur (soumise).
Le mépris se dirige en retenue, la colère se pousse à fond
Les sept émotions universelles positionnées sur l'échelle d'intensité FACS, de A (trace) à E (activation maximale). Chaque émotion a son réglage juste : trop fort, le mépris devient grimace ; trop faible, la peur s'efface.
Distribution des sept émotions universelles sur l'échelle d'intensité FACS. Le mépris se situe le plus bas (A à B), la colère et la peur le plus haut (D à E), les autres au milieu. Plus le point est à droite, plus l'activation musculaire conseillée est forte.
Penser en PAD avant de prompter évite l'émotion binaire. Vous ne dirigez plus "triste", vous dirigez une tristesse précise : plaisir bas, activation basse, dominance moyenne, soit une mélancolie digne plutôt qu'un effondrement.
| Octant PAD | État modélisé | Ce que vous dirigez |
|---|---|---|
| Exubérant | Flow, enthousiasme | Joie active, créativité libérée |
| Dépendant | Émerveillement (Awe) | Fascination, admiration, réceptivité |
| Relaxé | Relaxation | Sérénité, sécurité, plénitude |
| Docile | Espérance | Attente sereine, confiance passive |
| Hostile | Hostilité | Colère contrôlée, indignation |
| Anxieux | Anxiété | Appréhension, panique latente |
| Dédaigneux | Mépris actif | Cynisme, indifférence hautaine |
| Ennuyé | Apathie | Léthargie, détachement |
Le modèle de Plutchik, avec sa roue des émotions, offre une autre entrée utile pour nuancer les transitions entre émotions voisines. Mais pour le prompt, le PAD suffit la plupart du temps : trois curseurs, et une intention devient lisible.
4. Diriger le corps et le mouvement avec Laban

Le visage ne fait pas tout. Un corps raconte autant qu'un regard. L'analyse du mouvement de Laban (Laban Movement Analysis, LMA), conçue d'abord pour la chorégraphie, est l'un des cadres les plus robustes pour codifier l'expressivité d'un geste. Elle décrit le mouvement sur quatre dimensions.
| Dimension | Ce qu'elle décrit | Vocabulaire |
|---|---|---|
| Shape (Forme) | Volume et attitude du corps dans l'espace | Ouverture, fermeture, élévation, abaissement, avancement, recul |
| Effort (Énergie) | Qualité dynamique, intention, force | Léger / fort, libre / contenu, soutenu / rapide, direct / indirect |
| Space (Espace) | Trajectoire dans la kinésphère | Latéral, haut, bas, avant, arrière |
| Body (Corps) | Organisation et initiation du mouvement | Impulsif, balancé, impactant |
Un mouvement juste est un réglage de quatre curseurs
Les quatre axes bipolaires de l'Effort de Laban. Le centre est le point neutre ; chaque pôle tire vers une qualité opposée. Deux gestes y dessinent leur signature : la main tendue contenue de l'exemple « mélancolie digne », et un geste libre et vif pour le contraste.
Radar bipolaire des quatre dimensions de l'Effort de Laban : poids (fort/léger), flux (contenu/libre), temps (rapide/soutenu), espace (indirect/direct). Le geste de la mélancolie digne se lit contenu, soutenu et direct ; le geste de contraste est libre, rapide et indirect.
La dimension Effort est la plus précieuse pour le prompt. C'est elle qui transforme une action plate en intention. "Elle tend la main" ne dit rien. "Elle tend la main, geste contenu et soutenu, trajectoire directe" dit une retenue, une politesse, peut-être une méfiance.

Photo street style, lumière naturelle de rue parisienne. Pose : nonchalance, une épaule légèrement plus basse, une main dans la poche d'un manteau, l'autre tenant un café, poids déplacé sur une jambe.
Regard ailleurs, comme surpris en marchant.
À éviter : sourire posé, posture symétrique, raideur, regard caméra fixe.
En vidéo, ce vocabulaire devient central. Les modèles de génération de mouvement (Veo, Runway, Kling) répondent beaucoup mieux à une qualité de geste qu'à une simple description d'action.
Pour les puristes, la notation d'Eshkol-Wachman (EWMN) va plus loin encore : elle modélise chaque membre comme un axe se déplaçant dans une sphère, avec des coordonnées sphériques précises et une "loi des membres légers et lourds" (un membre lourd entraîne passivement les membres légers qui lui sont rattachés). Utile à connaître, rarement nécessaire en prompt courant.
5. La cohérence de personnage
Voici le vrai sujet. Une émotion réussie sur une image isolée ne vaut pas grand-chose si le personnage change de visage à l'image suivante.
Le défi est double, et les deux exigences se contredisent :
- Préserver l'identité : le même visage, reconnaissable, sur toute la série. C'est le casting virtuel.
- Faire varier l'expression : sans que la variation ne déforme l'identité.
Les architectures de recherche traitent ce problème de différentes manières. Certaines, comme MAUGen, apprennent conjointement le texte, l'identité et les activations d'AU pour garantir une cohérence anatomique. D'autres, comme MagicFace, éditent une expression existante en extrayant d'abord les intensités d'AU, puis en les modifiant tout en préservant l'identité, la pose et l'arrière-plan.
Pour la pratique, la leçon est simple : séparez l'identité et l'expression. Fixez d'abord le personnage (référence, seed, description identitaire stable), puis ne faites varier que la partition FACS et l'intensité. Vous changez l'émotion sans changer la personne.
6. La Partition en pratique
Prenons une émotion difficile à obtenir : une mélancolie digne. Pas un effondrement, pas une larme de cinéma. Une tristesse retenue, traversée de tenue.
Avant (le prompt qui laisse la machine décider) :
Portrait d'une femme triste, belle, émotionnelle, lumière cinématique, très détaillé.
Le problème : tout est un adjectif. "Triste" et "émotionnelle" ouvrent mille interprétations. La machine choisit la plus probable, souvent la plus banale.
Après (la Partition) :
Portrait éditorial vertical d'une femme, fin de journée, lumière rasante douce.
Intention (PAD) : plaisir bas, activation basse, dominance moyenne.
Une mélancolie digne, contenue, pas un effondrement.
Expression (FACS) : AU1 + AU4 + AU15 à intensité C, regard baissé (AU64),
tête légèrement inclinée vers le bas (AU54B). Pas de larme, pas de bouche tremblante.
Corps (Laban) : posture soutenue, épaules contenues, léger recul (retreating).
Énergie retenue, jamais relâchée.
Cadre : buste, fond neutre désaturé, aucune théâtralité.
À éviter : sourire forcé, yeux brillants de larmes, pose dramatique.

La différence n'est pas une question de longueur. C'est une question de décisions. Le second prompt dit ce que le sujet ressent, quels muscles le montrent, à quelle intensité, et ce qu'il faut interdire. Il dirige.
Pour appliquer la méthode tout de suite



La Bibliothèque de Partitions vous donne les prompts
prêts à diriger.
Vous venez de voir comment une émotion devient une partition : intention PAD, formule FACS, qualité Laban, cadre et interdits.
La Bibliothèque rassemble 48 partitions prêtes à copier pour les émotions du visage, les poses, les mouvements vidéo et les scènes composites.
Prix de lancement : 39€ TTC ・ À partir du 10 juin : 59€ TTC.
7. Image ou film : ce qui change
La Partition reste la même. Mais le poids de chaque couche se déplace.
| Image fixe | Film / séquence | |
|---|---|---|
| Outils typiques | Midjourney, GPT Image, Nano Banana | Veo, Runway, Kling, Sora |
| Couche dominante | FACS (l'expression figée) | Laban (la qualité du mouvement) |
| Risque principal | Dérive identitaire | Physique floue, glissement de pieds |
| Ce qu'il faut verrouiller | Le visage et l'intensité | La continuité du geste dans le temps |
En image, vous cherchez l'instant juste : la fraction de seconde où l'émotion est lisible. En film, vous cherchez la trajectoire : comment l'émotion naît, se tient, se transforme. Laban devient alors votre langage principal, parce qu'une émotion en mouvement est d'abord une qualité d'énergie.

Plan moyen, le sujet de dos se retourne. Mouvement : amorce vive de la tête (Flick), le buste suit en glissé soutenu (Glide), cheveux et vêtement en suspension.
Caméra : fixe.
À éviter : rotation mécanique d'un seul bloc, raideur du cou.
De l'image au film, le poids glisse du visage au mouvement
La méthode reste la même, mais chaque exigence se déplace selon le médium. En image, on cherche l'instant juste ; en film, la trajectoire de l'émotion dans le temps.
Comparaison entre image fixe et film sur quatre critères. Les outils passent de Nano Banana et GPT Image à Veo et Seedance ; la couche dominante du FACS au Laban ; le risque principal de la dérive identitaire à la physique floue ; et ce qu'il faut verrouiller, du visage à la continuité du geste.
8. Les erreurs fréquentes
- Commencer par l'outil. La question n'est pas "quel modèle", mais "quelle intention". L'outil vient en dernier.
- Empiler les adjectifs. "Triste, mélancolique, émouvant, poignant" ne précise rien. Une seule formule FACS vaut dix adjectifs.
- Sourire sans AU6. Le piège le plus courant. Un sourire de bouche sans plissement des yeux sonne faux à tous les coups.
- Ignorer l'intensité. Une AU sans modificateur, c'est une note sans nuance. A ou E changent tout.
- Confondre émotion et expression. L'expression est la surface (FACS). L'émotion est la profondeur (PAD). On dirige les deux.
- Faire varier l'identité en même temps que l'expression. On fixe la personne, puis on joue l'émotion. Jamais l'inverse.
9. Méthodologie et limites
Par souci de transparence, et parce qu'un guide honnête vaut mieux qu'un guide héroïque :
- Sources. Les systèmes décrits ici sont documentés et antérieurs à l'IA : FACS (Ekman et Friesen), PAD (Mehrabian et Russell), LMA (Laban), EWMN (Eshkol et Wachman). Les architectures citées (MAUGen, MagicFace) relèvent de la recherche en cours.
- Modèles testés. GPT Images, Nano Banana et Midjourney pour l'image ; Seedance et Kling pour le mouvement. Tous ne répondent pas aux codes FACS avec la même précision. Midjourney préfère un mélange de formule et de langage court.
- Limites. Aucun modèle grand public n'expose aujourd'hui un contrôle FACS strict et garanti. La méthode augmente fortement la justesse et la reproductibilité, elle ne les garantit pas image par image. La sélection critique reste votre travail.
- Ce qui reste humain. Décider quelle émotion sert le récit, reconnaître l'instant juste, refuser le cliché. Aucune partition ne remplace le regard.
La suite logique du guide
Si vous voulez passer de la méthode à l’usage, la Bibliothèque de Partitions rassemble 48 prompts structurés avec PAD, FACS et Laban.
Voir la Bibliothèque de Partitions →
Directeur de création · 20+ ans d'expérience en agence (Marcel, Leo Burnett). 600+ professionnels formés aux méthodes & workflows IA depuis 2023. Formations certifiées QUALIOPI.
Glossaire
| Terme | Définition |
|---|---|
| FACS | Facial Action Coding System. Standard scientifique décomposant les expressions en unités musculaires. |
| Action Unit (AU) | Unité élémentaire de mouvement facial correspondant à un muscle ou groupe de muscles. |
| Sourire de Duchenne | Sourire sincère, codé AU6 + AU12, impliquant les yeux et pas seulement la bouche. |
| PAD | Modèle Pleasure-Arousal-Dominance. Projette une émotion sur trois axes continus. |
| LMA | Laban Movement Analysis. Cadre décrivant la qualité du mouvement sur quatre dimensions. |
| Effort (Laban) | Dimension décrivant la qualité dynamique d'un geste : léger/fort, libre/contenu, direct/indirect. |
| Casting virtuel | Préservation de l'identité d'un personnage à travers les variations d'expression. |
| Physique floue | Artefacts de mouvement (glissement, articulations impossibles) dus à l'imprécision sémantique. |
formations IA
Google Flow, Veo & Gemini Omni : L’Orchestration Cinématographique IA NEW
Durée : 2 jours (14h). Public : DA, réalisateurs, motion designers, équipes marketing, communication et social media
Réinventer son processus créatif avec l’IA générative
Durée : 5 jours (35h). Public : DA, graphistes, designers
Gemini & Nano Banana 2 : du brief à l’image finale
Durée : 1 jour (7h). Public : graphistes, designers, drecteurs artistiques
L’IA générative pour les créatifs : panorama et expérimentation des outils essentiels
Durée : 1 jour (7h). Public : DA, dirigeants, designers
Content Factory Pilot 30 jours : construire un système éditorial IA réellement utilisable
Durée : 30 jours (accompagnement). Public : dirigeants, équipes marketing & communication
Creative Memory Sprint : construire la mémoire IA créative de votre agence
Durée : 3 à 4 semaines (accompagnement). Public : directions créatives, studios créatifs, équipes marketing
Derniers articles
-
Pourquoi les formations IA généralistes échouent à répondre aux métiers créatifs
Les formations IA généralistes donnent souvent une bonne première culture des outils. Mais elles échouent quand il faut produire, décliner,…
-
Diriger l’émotion, l’expression et le mouvement dans les images et films IA
Diriger une émotion en IA ne consiste pas à empiler des adjectifs, mais à écrire une partition précise : les…
-
Pourquoi votre équipe marketing n’a pas besoin de plus d’outils IA, mais d’un système éditorial
Le contenu ne manque pas toujours d’idées. Il manque souvent d’un système pour transformer ces idées en publications régulières, utiles…