Diriger l’émotion, l’expression et le mouvement dans les images et films IA

Diriger une émotion en IA ne consiste pas à empiler des adjectifs, mais à écrire une partition précise : les muscles du visage (système FACS), l’état affectif (modèle PAD) et la qualité du mouvement (analyse de Laban). Cette méthode remplace la « physique floue » du langage naturel par un contrôle reproductible, cohérent d’une image à l’autre.

Prompt emotion IA - Expression (FACS), Corps (LABAN)

La plupart des gens écrivent « un regard triste, un mouvement gracieux » et obtiennent du hasard. Un directeur, lui, ne décrit pas une émotion. Il la dirige. Avec une intention claire, une partition précise, et la patience de regarder ce qui revient.

Ce guide rassemble trois systèmes que la recherche utilise pour rendre une émotion et un geste reproductibles. Aucun n’a été inventé pour l’IA. Tous viennent du théâtre, de la psychologie et de la chorégraphie. C’est précisément ce qui les rend solides : ils décrivent l’humain avant de décrire la machine.

Ce qu’il faut retenir

  • Le langage naturel est ambigu. « Triste » peut produire mille visages. Une formule musculaire en produit un, encore et encore.
  • Le FACS (Facial Action Coding System) décompose toute expression en unités musculaires appelées Action Units. Une émotion devient une addition d’AU, modulable en intensité.
  • Un sourire sincère se code AU6 + AU12. Un sourire poli, AU12 seul. La différence entre les deux est tout votre métier.
  • Le modèle PAD distingue deux émotions négatives par leur niveau d’activation : la rage et l’ennui ne se prompttent pas de la même façon.
  • L’analyse de Laban décrit la qualité d’un geste sur quatre dimensions : forme, énergie, espace, corps. C’est la différence entre « il marche » et « il avance, contenu, soutenu ».

La méthode : La Partition

Avant les outils, une méthode. Je l’appelle La Partition, parce qu’une émotion réussie ressemble moins à une description qu’à un score musical : des notes précises, jouées dans un certain ordre, avec une certaine intensité.

Les quatre couches répondent chacune à une question simple :

CoucheLa questionLe livrable
IntentionQue doit ressentir le sujet, vraiment ?Une position sur les axes PAD
PartitionQuels signes rendent cette émotion lisible ?Une formule FACS, une qualité Laban
PromptComment écrire cela comme un brief, pas une liste de mots ?Une invite structurée
ContinuitéComment garder le même personnage d'une image à l'autre ?Un protocole d'identité et d'intensité

Cette structure prolonge une idée que je répète en formation : on ne cherche pas une belle image, on construit un système qui en produit plusieurs, cohérentes.

1. Le problème : pourquoi vos émotions IA sonnent faux

Deux pannes reviennent sans cesse.

La première est la dérive identitaire. Dès qu'on pousse une expression intense, le visage du personnage change. Les modèles de diffusion standard peinent à tenir ensemble deux exigences contradictoires : préserver l'identité (le casting virtuel) et faire varier l'émotion. Le résultat : un sourire transforme la personne en quelqu'un d'autre.

La seconde est la physique floue (fuzzy physics). En vidéo, traduire un langage informel en coordonnées réelles produit des artefacts bien connus : pieds qui glissent, articulations impossibles, corps qui perd sa rigidité. La machine devine la physique au lieu de l'exécuter.

2. Diriger le visage avec le FACS

FACS (Facial Action Coding System)

Le Facial Action Coding System est le standard scientifique mondial pour décrire un visage. Conçu par Carl-Herman Hjortsjö, puis formalisé par Paul Ekman et Wallace V. Friesen en 1978, mis à jour en 2002, il repose sur un manuel de plus de cinq cents pages. Son principe : toute expression se décompose en Action Units (AU), chacune correspondant à la contraction d'un muscle ou d'un groupe de muscles.

Au lieu de décrire une émotion de façon subjective, on spécifie les contractions exactes. "Un regard sournois" devient une combinaison d'AU. L'ambiguïté disparaît.

Intensité et latéralité

Deux modificateurs transforment une AU en instruction de mise en scène.

ModificateurCodeSignification
Intensité minimaleATrace d'activation, à peine perceptible
Intensité légèreBPrésente mais discrète
Intensité marquéeCNette
Intensité forteDPrononcée
Intensité maximaleEActivation musculaire complète
Côté droitRMouvement sur la droite uniquement
Côté gaucheLMouvement sur la gauche uniquement
UnilatéralUUn seul côté, non spécifié
AsymétriqueA*Bilatéral mais asymétrique

C'est ici que se joue la nuance. Un mépris discret se code R12A, soit une traction de la commissure droite à intensité minimale. Le même geste à intensité E n'est plus du mépris, c'est une grimace.

La grille de référence

Voici les Action Units documentées, classées par zone. Utilisez-les comme un nuancier : on ne joue jamais toutes les notes, on en choisit quelques-unes.

CodeDescription anatomiqueEffet d'expression
AU1Élévation interne des sourcilsTristesse, inquiétude, détresse
AU2Élévation externe des sourcilsSurprise, incrédulité, questionnement
AU4Abaissement et rapprochement des sourcilsColère, douleur, effort
AU5Élévation de la paupière supérieureYeux écarquillés, choc, peur
AU6Élévation des jouesPlissement orbital, sourire sincère dit "de Duchenne"
AU7Tension des paupièresSuspicion, focus
AU9Plissement du nezDégoût, répulsion
AU10Élévation de la lèvre supérieureDégoût marqué
AU11Accentuation du sillon nasolabialTristesse
AU12Étirement oblique des commissuresSourire volontaire, social
AU13Étirement aigu de la commissureSourire pincé, ironique
AU14Fossettes (Dimpler)Ironie
AU15Abaissement des commissuresMoue de tristesse, déception
AU16Abaissement de la lèvre inférieureTristesse, cri
AU17Élévation du mentonMoue, doute, bouderie
AU18Avancement des lèvresBaiser, sifflement
AU20Étirement latéral des lèvresPeur, tension
AU22Lèvres en entonnoirPrononciation, surprise
AU23Tension des lèvresColère, détermination
AU24Compression des lèvresSilence, colère contenue
AU25Séparation des lèvresParole, surprise légère
AU26Abaissement de la mâchoireSurprise, choc, passivité
AU27Étirement vertical de la boucheCri, terreur, bâillement
AU28Aspiration des lèvresRéflexion
AU41Affaissement de la paupièreFatigue, regard séducteur
AU42Yeux mi-closSuspicion
AU43Yeux fermésSommeil, méditation
AU44Clignement plissé (Squint)Concentration
AU45Clignement temporaire (Blink)Transition rapide
AU46Clin d'œil (Wink)Complicité, séduction
AU51 / AU52Rotation de tête gauche / droiteOrientation latérale
AU53 / AU54Inclinaison haut / basFierté / honte, soumission
AU55 / AU56Penchement gauche / droiteCuriosité, écoute
AU57 / AU58Projection avant / reculAgressivité / peur
AU61 / AU62Regard gauche / droiteMouvement oculaire latéral
AU63 / AU64Regard haut / basExaspération / timidité, culpabilité
AU71 / AU72Sillon et renflement intersourciliersColère, tension
AU81MasticationTension nerveuse
AU82Dilatation des narinesColère, effort, panique

Les formules d'émotion prêtes à l'emploi

Les émotions universelles se traduisent par des combinaisons stables. Gardez ce tableau sous la main.

ÉmotionFormule (Action Units)Intensité conseillée
SurpriseAU1 + AU2 + AU5B + AU26Modérée (5B évite l'écarquillement excessif)
TristesseAU1 + AU4 + AU15Marquée (C ou D sur AU15)
Joie sincèreAU6 + AU12Variable selon le degré recherché
PeurAU1 + AU2 + AU4 + AU5 + AU7 + AU20 + AU26Élevée (D ou E)
ColèreAU4 + AU5 + AU7 + AU23Intense, focalisée sur le regard
DégoûtAU9 + AU15 + AU17Marquée en médio-facial
MéprisR12A + R14AFaible (A ou B), pour un effet subtil

Retenez la paire AU6 + AU12. AU12 seul produit un sourire de politesse, étiré mais froid. Ajoutez AU6, l'élévation des joues, et le sourire devient sincère : c'est le sourire de Duchenne. La plupart des portraits IA ratés sourient sans AU6. Ils sourient de la bouche, pas des yeux.

Ces codes s'injectent directement dans les modèles avancés : GPT Image, Seedance, Nano Banana, et dans une moindre mesure Midjourney, qui répond mieux à un mélange de formule FACS et de langage descriptif court.

Tester la partition FACS avec Expression Lab

Expression Lab - Générateur de prompts FACS

Expression Lab est un générateur de prompts FACS interactif. L’outil permet de composer une expression faciale à partir des Action Units : sourcils, paupières, joues, bouche, menton, intensité et combinaisons émotionnelles.

Au lieu de rester dans une description vague comme “un sourire subtil” ou “un visage inquiet”, vous manipulez directement les unités musculaires sur un visage filaire, puis l’outil génère un prompt structuré prêt à copier. C’est une façon simple de transformer la partie FACS de la Partition en interface : choisir les signes, régler leur intensité, vérifier l’équilibre de l’expression, puis passer au prompt.

Expression Lab ne remplace pas la méthode PAD/FACS/Laban décrite ici : il en isole la couche visage pour la rendre plus rapide à tester. Il sert de passerelle entre l’intention émotionnelle et l’écriture précise du prompt.

Découvrir Expression Lab

3. Diriger l'état intérieur avec le PAD

Le FACS décrit la surface. Mais une émotion juste a une profondeur. Le modèle PAD (Pleasure, Arousal, Dominance), formulé par Albert Mehrabian et James Russell en 1974, projette tout état affectif sur trois axes.

  • Plaisir : l'état est-il agréable ou désagréable ?
  • Activation : quelle énergie, quelle excitation physiologique ? C'est l'axe qui sépare la rage (forte activation) de l'ennui (faible activation).
  • Dominance : le sujet est-il en contrôle ou subit-il ? C'est l'axe qui sépare la colère (dominante) de la peur (soumise).

Penser en PAD avant de prompter évite l'émotion binaire. Vous ne dirigez plus "triste", vous dirigez une tristesse précise : plaisir bas, activation basse, dominance moyenne, soit une mélancolie digne plutôt qu'un effondrement.

Octant PADÉtat modéliséCe que vous dirigez
ExubérantFlow, enthousiasmeJoie active, créativité libérée
DépendantÉmerveillement (Awe)Fascination, admiration, réceptivité
RelaxéRelaxationSérénité, sécurité, plénitude
DocileEspéranceAttente sereine, confiance passive
HostileHostilitéColère contrôlée, indignation
AnxieuxAnxiétéAppréhension, panique latente
DédaigneuxMépris actifCynisme, indifférence hautaine
EnnuyéApathieLéthargie, détachement

Le modèle de Plutchik, avec sa roue des émotions, offre une autre entrée utile pour nuancer les transitions entre émotions voisines. Mais pour le prompt, le PAD suffit la plupart du temps : trois curseurs, et une intention devient lisible.

4. Diriger le corps et le mouvement avec Laban

Laban Movement Analysis

Le visage ne fait pas tout. Un corps raconte autant qu'un regard. L'analyse du mouvement de Laban (Laban Movement Analysis, LMA), conçue d'abord pour la chorégraphie, est l'un des cadres les plus robustes pour codifier l'expressivité d'un geste. Elle décrit le mouvement sur quatre dimensions.

DimensionCe qu'elle décritVocabulaire
Shape (Forme)Volume et attitude du corps dans l'espaceOuverture, fermeture, élévation, abaissement, avancement, recul
Effort (Énergie)Qualité dynamique, intention, forceLéger / fort, libre / contenu, soutenu / rapide, direct / indirect
Space (Espace)Trajectoire dans la kinésphèreLatéral, haut, bas, avant, arrière
Body (Corps)Organisation et initiation du mouvementImpulsif, balancé, impactant

La dimension Effort est la plus précieuse pour le prompt. C'est elle qui transforme une action plate en intention. "Elle tend la main" ne dit rien. "Elle tend la main, geste contenu et soutenu, trajectoire directe" dit une retenue, une politesse, peut-être une méfiance.

prompt : Photo street style, lumière naturelle de rue parisienne. Pose : nonchalance, une épaule légèrement plus basse, une main dans la poche d'un manteau, l'autre tenant un café, poids déplacé sur une jambe.

Regard ailleurs, comme surpris en marchant.

À éviter : sourire posé, posture symétrique, raideur, regard caméra fixe.
Photo street style, lumière naturelle de rue parisienne. Pose : nonchalance, une épaule légèrement plus basse, une main dans la poche d'un manteau, l'autre tenant un café, poids déplacé sur une jambe.

Regard ailleurs, comme surpris en marchant.

À éviter : sourire posé, posture symétrique, raideur, regard caméra fixe.

En vidéo, ce vocabulaire devient central. Les modèles de génération de mouvement (Veo, Runway, Kling) répondent beaucoup mieux à une qualité de geste qu'à une simple description d'action.

Pour les puristes, la notation d'Eshkol-Wachman (EWMN) va plus loin encore : elle modélise chaque membre comme un axe se déplaçant dans une sphère, avec des coordonnées sphériques précises et une "loi des membres légers et lourds" (un membre lourd entraîne passivement les membres légers qui lui sont rattachés). Utile à connaître, rarement nécessaire en prompt courant.

5. La cohérence de personnage

Voici le vrai sujet. Une émotion réussie sur une image isolée ne vaut pas grand-chose si le personnage change de visage à l'image suivante.

Le défi est double, et les deux exigences se contredisent :

  1. Préserver l'identité : le même visage, reconnaissable, sur toute la série. C'est le casting virtuel.
  2. Faire varier l'expression : sans que la variation ne déforme l'identité.

Les architectures de recherche traitent ce problème de différentes manières. Certaines, comme MAUGen, apprennent conjointement le texte, l'identité et les activations d'AU pour garantir une cohérence anatomique. D'autres, comme MagicFace, éditent une expression existante en extrayant d'abord les intensités d'AU, puis en les modifiant tout en préservant l'identité, la pose et l'arrière-plan.

Pour la pratique, la leçon est simple : séparez l'identité et l'expression. Fixez d'abord le personnage (référence, seed, description identitaire stable), puis ne faites varier que la partition FACS et l'intensité. Vous changez l'émotion sans changer la personne.

6. La Partition en pratique

Prenons une émotion difficile à obtenir : une mélancolie digne. Pas un effondrement, pas une larme de cinéma. Une tristesse retenue, traversée de tenue.

Avant (le prompt qui laisse la machine décider) :

Portrait d'une femme triste, belle, émotionnelle, lumière cinématique, très détaillé.

Le problème : tout est un adjectif. "Triste" et "émotionnelle" ouvrent mille interprétations. La machine choisit la plus probable, souvent la plus banale.

Après (la Partition) :

Portrait éditorial vertical d'une femme, fin de journée, lumière rasante douce.

Intention (PAD) : plaisir bas, activation basse, dominance moyenne.
Une mélancolie digne, contenue, pas un effondrement.

Expression (FACS) : AU1 + AU4 + AU15 à intensité C, regard baissé (AU64),
tête légèrement inclinée vers le bas (AU54B). Pas de larme, pas de bouche tremblante.

Corps (Laban) : posture soutenue, épaules contenues, léger recul (retreating).
Énergie retenue, jamais relâchée.

Cadre : buste, fond neutre désaturé, aucune théâtralité.
À éviter : sourire forcé, yeux brillants de larmes, pose dramatique.
Prompt emotion IA : Portrait éditorial vertical d'une femme, fin de journée, lumière rasante douce.

Intention (PAD) : plaisir bas, activation basse, dominance moyenne.
Une mélancolie digne, contenue, pas un effondrement.

Expression (FACS) : AU1 + AU4 + AU15 à intensité C, regard baissé (AU64),
tête légèrement inclinée vers le bas (AU54B). Pas de larme, pas de bouche tremblante.

Corps (Laban) : posture soutenue, épaules contenues, léger recul (retreating).
Énergie retenue, jamais relâchée.

Cadre : buste, fond neutre désaturé, aucune théâtralité.
À éviter : sourire forcé, yeux brillants de larmes, pose dramatique.

La différence n'est pas une question de longueur. C'est une question de décisions. Le second prompt dit ce que le sujet ressent, quels muscles le montrent, à quelle intensité, et ce qu'il faut interdire. Il dirige.

Pour appliquer la méthode tout de suite

La Bibliothèque de Partitions vous donne les prompts
prêts à diriger.

Vous venez de voir comment une émotion devient une partition : intention PAD, formule FACS, qualité Laban, cadre et interdits.

La Bibliothèque rassemble 48 partitions prêtes à copier pour les émotions du visage, les poses, les mouvements vidéo et les scènes composites.

Prix de lancement : 39€ TTC ・ À partir du 10 juin : 59€ TTC.

7. Image ou film : ce qui change

La Partition reste la même. Mais le poids de chaque couche se déplace.

Image fixeFilm / séquence
Outils typiquesMidjourney, GPT Image, Nano BananaVeo, Runway, Kling, Sora
Couche dominanteFACS (l'expression figée)Laban (la qualité du mouvement)
Risque principalDérive identitairePhysique floue, glissement de pieds
Ce qu'il faut verrouillerLe visage et l'intensitéLa continuité du geste dans le temps

En image, vous cherchez l'instant juste : la fraction de seconde où l'émotion est lisible. En film, vous cherchez la trajectoire : comment l'émotion naît, se tient, se transforme. Laban devient alors votre langage principal, parce qu'une émotion en mouvement est d'abord une qualité d'énergie.

Prompt : Plan moyen, le sujet de dos se retourne. Mouvement : amorce vive de la tête (Flick), le buste suit en glissé soutenu (Glide), cheveux et vêtement en suspension.

Caméra : fixe.

À éviter : rotation mécanique d'un seul bloc, raideur du cou.
Plan moyen, le sujet de dos se retourne. Mouvement : amorce vive de la tête (Flick), le buste suit en glissé soutenu (Glide), cheveux et vêtement en suspension.

Caméra : fixe.

À éviter : rotation mécanique d'un seul bloc, raideur du cou.

8. Les erreurs fréquentes

  • Commencer par l'outil. La question n'est pas "quel modèle", mais "quelle intention". L'outil vient en dernier.
  • Empiler les adjectifs. "Triste, mélancolique, émouvant, poignant" ne précise rien. Une seule formule FACS vaut dix adjectifs.
  • Sourire sans AU6. Le piège le plus courant. Un sourire de bouche sans plissement des yeux sonne faux à tous les coups.
  • Ignorer l'intensité. Une AU sans modificateur, c'est une note sans nuance. A ou E changent tout.
  • Confondre émotion et expression. L'expression est la surface (FACS). L'émotion est la profondeur (PAD). On dirige les deux.
  • Faire varier l'identité en même temps que l'expression. On fixe la personne, puis on joue l'émotion. Jamais l'inverse.

9. Méthodologie et limites

Par souci de transparence, et parce qu'un guide honnête vaut mieux qu'un guide héroïque :

  • Sources. Les systèmes décrits ici sont documentés et antérieurs à l'IA : FACS (Ekman et Friesen), PAD (Mehrabian et Russell), LMA (Laban), EWMN (Eshkol et Wachman). Les architectures citées (MAUGen, MagicFace) relèvent de la recherche en cours.
  • Modèles testés. GPT Images, Nano Banana et Midjourney pour l'image ; Seedance et Kling pour le mouvement. Tous ne répondent pas aux codes FACS avec la même précision. Midjourney préfère un mélange de formule et de langage court.
  • Limites. Aucun modèle grand public n'expose aujourd'hui un contrôle FACS strict et garanti. La méthode augmente fortement la justesse et la reproductibilité, elle ne les garantit pas image par image. La sélection critique reste votre travail.
  • Ce qui reste humain. Décider quelle émotion sert le récit, reconnaître l'instant juste, refuser le cliché. Aucune partition ne remplace le regard.

La suite logique du guide

Si vous voulez passer de la méthode à l’usage, la Bibliothèque de Partitions rassemble 48 prompts structurés avec PAD, FACS et Laban.

Voir la Bibliothèque de Partitions


Directeur de création · 20+ ans d'expérience en agence (Marcel, Leo Burnett). 600+ professionnels formés aux méthodes & workflows IA depuis 2023. Formations certifiées QUALIOPI.

Glossaire

TermeDéfinition
FACSFacial Action Coding System. Standard scientifique décomposant les expressions en unités musculaires.
Action Unit (AU)Unité élémentaire de mouvement facial correspondant à un muscle ou groupe de muscles.
Sourire de DuchenneSourire sincère, codé AU6 + AU12, impliquant les yeux et pas seulement la bouche.
PADModèle Pleasure-Arousal-Dominance. Projette une émotion sur trois axes continus.
LMALaban Movement Analysis. Cadre décrivant la qualité du mouvement sur quatre dimensions.
Effort (Laban)Dimension décrivant la qualité dynamique d'un geste : léger/fort, libre/contenu, direct/indirect.
Casting virtuelPréservation de l'identité d'un personnage à travers les variations d'expression.
Physique floueArtefacts de mouvement (glissement, articulations impossibles) dus à l'imprécision sémantique.

formations IA

Google Flow, Veo & Gemini Omni : L’Orchestration Cinématographique IA NEW

Durée : 2 jours (14h). Public : DA, réalisateurs, motion designers, équipes marketing, communication et social media

Réinventer son processus créatif avec l’IA générative

Durée : 5 jours (35h). Public : DA, graphistes, designers

Gemini & Nano Banana 2 : du brief à l’image finale

Content Factory Pilot 30 jours : construire un système éditorial IA réellement utilisable

Durée : 30 jours (accompagnement). Public : dirigeants, équipes marketing & communication

Creative Memory Sprint : construire la mémoire IA créative de votre agence

Durée : 3 à 4 semaines (accompagnement). Public : directions créatives, studios créatifs, équipes marketing


Derniers articles