En bref. La méthode Z-Axis consiste à dessiner les lettres d’un mot non pas sur la surface d’une image, mais dans sa profondeur. Une lettre au premier plan, une au plan moyen, une à l’arrière.
Nano Banana Pro reconstitue l’illusion grâce à l’alignement spatial et à un prompt structuré en trois temps. Mise à jour : mai 2026.

Ce que vous saurez faire après cette lecture
- Décomposer un mot court en trois plans de profondeur cohérents
- Choisir un univers de tunnel adapté à votre intention narrative
- Écrire un prompt Z-Axis avec la formule en trois propositions
- Identifier les erreurs qui cassent l’illusion à coup sûr
- Reproduire les 11 exemples de la galerie ci-dessous
Pourquoi je suis tombé sur la méthode Z-Axis
J’ai testé plus de 40 prompts d’anamorphose typographique entre novembre 2025 et avril 2026, d’abord pour un projet d’illustration éditoriale, ensuite parce que je n’arrivais plus à arrêter. La plupart des images générées par les modèles classiques traitent le texte comme une couche posée sur la scène. La typographie devient un sticker, parfois élégant, jamais intégré.
Ce qui change avec Nano Banana Pro, c’est sa capacité à comprendre l’alignement géométrique entre objets situés à des distances différentes de la caméra. À partir de là, une question banale a déplacé tout mon workflow : et si la profondeur de champ devenait un alphabet ?
Comment décomposer un mot sur l’axe de profondeur
Comptez les lettres du mot, distribuez-les sur trois plans, attribuez à chaque plan un type d’objet adapté à sa fonction visuelle.
La grille des trois plans
| Plan | Position des lettres | Type d’objets recommandés |
|---|---|---|
| Premier plan | 1 à 3 premières lettres | Objets proches, nets, tactiles, textures lisibles |
| Plan moyen | Lettres centrales | Structures répétitives, motifs, rythmes circulaires |
| Arrière-plan | Dernières lettres | Silhouettes, lumières, horizons, formes architecturales |
Cette répartition n’est pas un dogme, c’est une mécanique de lisibilité. Les yeux humains traitent d’abord le foreground avec netteté, puis interprètent les masses du fond. Le prompt suit la même logique. Si vous l’inversez, l’illusion s’effondre.
Le mot idéal fait entre 3 et 8 lettres
Au-delà de 8 lettres, Nano Banana Pro commence à fragmenter les groupes et perd la cohérence du mot. En dessous de 3, l’effet de tunnel n’a pas la place de se développer. Mes meilleurs résultats sortent sur des mots de 4 à 6 lettres : NOW, EVERY, ART, EVERYTHING (par exception, en jouant sur des sous-groupes).
La fenêtre de lisibilité : combien de lettres pour un mot Z-Axis qui marche
La qualité de l’illusion ne grandit pas linéairement avec la longueur du mot. Elle suit une courbe en cloche, avec un pic entre 4 et 6 lettres et une chute rapide au-delà de 8.
À retenir. Trois plans, un mot court, des objets dont la fonction visuelle correspond à la position dans la phrase typographique. Le reste découle.
Quelle est la formule de prompt Z-Axis
Tous les prompts de la galerie ci-dessous suivent une seule structure stricte. Elle est faite pour être copiée, modifiée, et réutilisée. Le format magique tient en quatre propositions enchaînées.
A 16:9 [angle] shot [description du lieu].
The '[LETTRES 1]' is/are formed by [éléments au premier plan].
The '[LETTRES 2]' is/are formed by [éléments au plan moyen].
The '[LETTRES 3]' is/are formed by [éléments à l'arrière-plan].
[Palette de couleurs, ambiance, style cinématographique].
Trois remarques sur cette formule.
D’abord, le ratio 16:9 n’est pas négociable. Les autres ratios dispersent l’attention et compliquent l’alignement spatial. C’est le format qui fonctionne le mieux dans mes tests.
Ensuite, le verbe formed by est la clé sémantique. Pas like, pas shaped as, pas resembling. Formed by indique au modèle que les objets eux-mêmes constituent les lettres. C’est une instruction structurelle, pas une comparaison.
Enfin, la dernière ligne de palette et ambiance scelle la cohérence. Sans elle, les trois plans peuvent se contredire visuellement et fragiliser l’illusion.
À retenir. Une structure en quatre propositions, le verbe formed by en pivot, le 16:9 comme cadre, la palette comme liant.
Galerie : 11 prompts Z-Axis testés sur Nano Banana Pro
Chaque image ci-dessous est issue d’un prompt unique, généré sur Nano Banana Pro et upscalé via Firefly. Les prompts sont reproductibles tels quels.

16:9 eye-level shot across a lab bench. The 'N' is formed by a retort stand base and a burette clamp in the foreground. The 'O' is a round-bottom flask bubbling with colored liquid in the mid-ground. The 'W' is formed by the complex piping and baffles inside a fume hood in the background. Glassware, tubes, and clinical lighting.

A 16:9 view inside a dance studio with mirrors. The 'N' is formed by the vertical barre and the leg of a dancer stretching in the foreground. The 'O' is formed by a group of dancers in the center holding hands in a circle. The 'W' is the reflection of the dancers in the back mirror, whose crossed legs create the zigzag shape. The illusion exists between the real dancers and their reflections. Soft window light, ethereal.

A 16:9 shot from the conductor's podium looking at the orchestra. The 'N' is formed by the neck of a double bass and the bow of a cello in the immediate foreground. The 'O' is formed by the circular arrangement of the percussion section (timpani drums) in the mid-ground. The 'W' is formed by the brass section in the back, specifically the angles of the trombones and tubas reflecting the stage lights. The music instruments create the typography. Warm gold lighting.

A 16:9 ground-level shot of a tense street standoff. The 'N' is formed by the edge of a riot shield and a baton held by a policeman in the foreground. The 'O' is a burning tire in the middle of the street creating a ring of fire in the mid-ground. The 'W' is formed by the scattered silhouettes of protesters with raised arms in the smoky background. The chaos of the smoke blends the layers. Dramatic, photojournalistic style.

A 16:9 ground-level view of an overgrown, decaying amusement park. Vines cover everything. The letters are formed by the rusting rides. The first 'E' is the skeletal frame of a ticket booth in the foreground. The 'V' and 'E' are formed by the wooden supports of a rollercoaster track that dips in the mid-ground. The 'R' and 'Y' are formed by the loop-de-loop of the steel track in the distance against the grey sky. The 'THING' is composed of the vertical pillars of a drop-tower ride. Melancholic, foggy, detailed textures.

A 16:9 view behind the scenes of a movie shoot. The 'N' is formed by the leg of a C-stand and a black flag (lighting gear) in the foreground. The 'O' is the lens of the main camera or a spotlight ring in the mid-ground. The 'W' is formed by the scissor lift and scaffolding rig in the background. The chaotic equipment aligns perfectly for one second. Technical, cinematic atmosphere.

A 16:9 eye-level shot from the mud of a massive, active skyscraper construction site at dawn. The letters of 'EVERYTHING' are formed by the chaotic layering of building materials. The foreground 'E' is formed by a stack of steel I-beams sitting on a pallet. The mid-ground 'V' is created by the A-frame legs of a yellow mobile crane. The 'E', 'R', 'Y' in the distance are formed by the grid of orange safety netting and scaffolding wrapping the unfinished tower. The illusion relies on the alignment of the rusty steel in front against the orange mesh in the back. Industrial grit, fog, soft light.

A 16:9 low-angle shot inside a steamy, rust-colored industrial basement. The 'N' is formed by the vertical pipes and support strut of a pressure gauge in the immediate foreground. The 'O' is the circular iron door of a furnace glowing orange in the mid-ground. The 'W' is formed by the zigzag pattern of the metal catwalk grating overhead in the background. The steam connects the layers. Gritty, high-contrast, steampunk aesthetic.

A 16:9 shot from inside a glass underwater tunnel. The 'N' is formed by the thick acrylic vertical frame of the tunnel section in the foreground. The 'O' is a circular porthole looking into a different tank in the mid-ground. The 'W' is formed by the silhouette of a shark and a jagged coral reef structure in the background water. Blue, caustic light, underwater distortion.

A 16:9 ground-level fisheye view inside an empty concrete skate bowl at sunset. The 'N' is formed by the sharp vertical edge of a ramp and a metal grind rail in the foreground. The 'O' is the perfect circle of the bowl's bottom edge seen from a specific angle in the mid-ground. The 'W' is formed by the graffiti tags on the far wall combined with the jagged silhouette of the city skyline in the background. Urban, gritty texture, harsh shadows.

A 16:9 chaotic shot from within a crowd of reporters. The 'N' is formed by a boom microphone pole and a camera tripod leg in the immediate foreground. The 'O' is the large glass lens of a TV camera pointing directly forward in the mid-ground. The 'W' is formed by the sea of raised arms holding recorders and phones in the background. Flashes going off create the lighting.
À retenir. Onze univers, une seule formule. La cohérence ne vient pas de la richesse des objets, elle vient de la rigueur du prompt.
Comment construire votre propre prompt en 5 étapes
- Choisissez votre mot et divisez-le. Comptez les lettres, distribuez-les en trois groupes selon la grille des plans. Le mot doit faire entre 3 et 8 lettres pour rester lisible.
- Sélectionnez un univers de tunnel cohérent. Architecture, nature, urbain, industriel, scénique, fantastique. Tous les objets du prompt doivent appartenir à la même famille.
- Construisez phrase par phrase avec la formule. Reprenez la structure en quatre propositions ci-dessus. Une proposition = un plan = un groupe de lettres.
- Soyez spécifique et visuel. Préférez les câbles d’acier d’un pont suspendu à des lignes. Préférez l’escalier en colimaçon de la Tour Eiffel à un escalier. Le modèle a besoin de références concrètes.
- Scellez avec l’ambiance. Palette de couleurs, atmosphère, style cinématographique. Cette dernière ligne fait l’unité visuelle entre les trois plans.
Les erreurs qui cassent l’illusion
| Croyance courante | Réalité observée |
|---|---|
| Plus de détails = meilleure illusion | Au-delà de 4 objets par plan, le modèle perd la lecture typographique |
| In the shape of fonctionne aussi bien que formed by | Le verbe formed by est nettement plus fiable structurellement |
| Le ratio importe peu | Le 16:9 reste le format le plus performant. 1:1 et 9:16 dégradent fortement l’alignement |
| On peut écrire n’importe quel mot | Au-delà de 8 lettres, l’illusion devient floue. EVERYTHING fonctionne par exception, en groupant les lettres |
| L’ambiance est cosmétique | Sans ligne d’ambiance finale, les trois plans peuvent se contredire et fragiliser l’illusion |
À retenir. Cinq sources d’erreur, toutes documentées sur mes propres tests. Le prompt Z-Axis est rigoureux par construction. Il pardonne peu d’écarts.
Méthodologie
Tests réalisés sur Nano Banana Pro entre novembre 2025. Plus de 40 prompts générés, 11 retenus pour cette galerie. Aucune retouche post-génération sur les images publiées, à l’exception de l’upscaling. Mots testés : NOW, ART, EVERY, EVERYTHING, NEXT, FLOW. Limites identifiées : ratios autres que 16:9, mots de plus de 8 lettres, prompts sans ligne d’ambiance finale.
Partager :
formations IA
Réaliser des vidéos IA : prompts, plans, personnages et montage
Durée : 2 jours (14h). Public : DA
Réinventer son processus créatif avec l’IA générative
Durée : 5 jours (35h). Public : DA, graphistes, designers
Gemini & Nano Banana 2 : du brief à l’image finale
Durée : 1 jour (7h). Public : graphistes, designers, drecteurs artistiques
L’IA générative pour les créatifs : panorama et expérimentation des outils essentiels
Durée : 1 jour (7h). Public : DA, dirigeants, designers
Content Factory Pilot 30 jours : construire un système éditorial IA réellement utilisable
Durée : 30 jours (accompagnement). Public : dirigeants, équipes marketing & communication
Le studio de production 360° : de la photo à la vidéo avec l’IA Google
Durée : 2 jours (14h). Public : responsables e-commerce, équipes marketing & communication
Explorer la Bible Photographique

Pellicules argentiques en prompt IA
Il y a quelque chose de paradoxal à utiliser le nom d’une pellicule argentique pour guider un modèle d’intelligence artificielle. Et pourtant, c’est l’une des techniques les plus efficaces qui existe.

Références de photographes pour prompts IA
Écrire in the style of Richard Avedon dans un prompt IA n’est pas une métaphore. C’est une instruction technique.

Guide complet des focales pour Midjourney, Flux et ChatGPT ImageS
La distance focale est probablement le paramètre technique le plus sous-utilisé dans les prompts IA. Pourtant, une focale bien choisie transforme la géométrie d’une image, la compression de l’espace, la relation entre le sujet et son environnement.
La Bible Photo intégrale
pour Prompts IA
Cette bible est la référence de vocabulaire photographique pour la génération d’images par IA. Elle couvre l’ensemble du lexique (optique, éclairage, composition, pellicules, esthétiques, colorimétrie) et indique pour chaque terme un exemple de prompt concret et son niveau d’efficacité sur les principaux modèles.
