Microsoft TRELLIS, générer des objets 3D depuis une image en local

Microsoft TRELLIS est un modèle 3D génératif open source publié par Microsoft Research. Il transforme une image 2D en asset 3D doté de matériaux PBR, exportable en GLB pour Unreal, Unity ou Blender, en quelques secondes sur GPU local. Trois leviers : la représentation O-Voxel, l’intégration ComfyUI, la qualité géométrique.

En bref

  1. Microsoft TRELLIS est un modèle 3D génératif image-to-3D, publié par Microsoft Research sous licence MIT.
  2. La version TRELLIS.2 atteint 4 milliards de paramètres et introduit la représentation O-Voxel, qui dépasse les limites des champs de distance signés.
  3. La sortie native inclut les canaux PBR (Albedo, Roughness, Metallic, Alpha), exportable en GLB pour Unreal Engine 5, Unity et Blender.
  4. Face à Hunyuan3D-V2, Rodin V2, Meshy V6 et Tripo AI, TRELLIS.2 prend la tête sur la qualité géométrique brute et la vitesse.
  5. L’écosystème ComfyUI rend l’outil accessible sans coder, via deux workflows distincts : Geometry Only et Geometry+Texture.
  6. Le maillon faible reste la rétopologie automatique en quads, mieux traitée aujourd’hui par Rodin V2 (payant).

Ce que vous saurez faire après ce guide

  • Décrire en une phrase ce que Microsoft TRELLIS produit et avec quelles contraintes.
  • Choisir entre TRELLIS.2, Rodin V2, Meshy V6 et Hunyuan3D-V2 selon le projet.
  • Configurer un poste local capable de faire tourner TRELLIS.2 sans casser le budget.
  • Construire un workflow ComfyUI minimal pour passer d’une image à un mesh PBR.
  • Repérer les briefs où la 3D générative apporte une vraie économie, et ceux où elle reste prématurée.

Sommaire

  1. Qu’est-ce que Microsoft TRELLIS et pourquoi en parler en 2026
  2. Comment TRELLIS transforme une image en objet 3D exploitable
  3. Quelle est la différence entre TRELLIS v1 et TRELLIS.2
  4. Que change l’architecture O-Voxel pour la qualité géométrique
  5. Comment TRELLIS se compare aux outils 3D payants
  6. Quel matériel faut-il pour faire tourner TRELLIS en local
  7. Comment intégrer TRELLIS dans ComfyUI
  8. Quels prompts et quelles images donnent les meilleurs résultats
  9. Pour quels cas d’usage TRELLIS est vraiment pertinent
  10. Quelles limites connaître avant de l’adopter
  11. Erreurs fréquentes
  12. Méthode de travail recommandée
  13. Méthodologie et sources


1. Qu’est-ce que Microsoft TRELLIS et pourquoi en parler en 2026

Microsoft TRELLIS est un modèle 3D génératif open source publié par Microsoft Research. À partir d’une seule image, il produit un asset 3D doté de matériaux physiques, exportable en GLB. La licence MIT autorise l’usage commercial. La version TRELLIS.2 atteint 4 milliards de paramètres et place le projet en tête de l’open source 3D en 2026.

Le projet TRELLIS s’inscrit dans une course mondiale ouverte fin 2024 entre Microsoft, Tencent, Deemos et plusieurs acteurs émergents. Pendant que Hunyuan3D explorait la voie des vues multiples, Microsoft a misé sur une représentation interne radicalement différente. Le résultat, deux itérations plus tard, est devenu une référence.

La première version a posé les fondations : un encodage latent universel et une sortie flexible vers Radiance Field, Gaussian Splatting ou maillage classique. La seconde version (TRELLIS.2) abandonne les iso-surfaces, change de représentation interne, et atteint un niveau de qualité géométrique que les SaaS payants n’ont pas encore égalé.

Trois faits objectifs à garder en tête :

  • Le code source est public, sous licence MIT, sur le dépôt GitHub officiel microsoft/TRELLIS.2.
  • Les poids du modèle 4 milliards de paramètres sont distribués sur Hugging Face (microsoft/TRELLIS.2-4B).
  • Une démo Gradio publique permet de tester le pipeline texte-vers-3D sans installer quoi que ce soit.


2. Comment TRELLIS transforme une image en objet 3D exploitable

TRELLIS prend une image en entrée, l’encode dans un espace latent compact, génère un volume de voxels sparse via un Diffusion Transformer, puis décode ce volume en maillage texturé avec ses canaux PBR. La sortie est un fichier GLB directement importable dans Blender, Unreal Engine 5 ou Unity.

Le pipeline ressemble à un atelier en cinq postes successifs. Chaque poste a son rôle, et la qualité finale dépend autant de la matière qui entre que des modèles utilisés au milieu.

Étape 1 : préparation de l’image source

L’image idéale est isolée sur fond neutre, éclairée comme un packshot e-commerce, cadrée en trois quarts. Le pipeline officiel utilise BRIA-RMBG-2.0 pour le détourage automatique. Si l’image est mal cadrée, le mesh sera bruité. C’est la règle numéro un.

Étape 2 : encodage SC-VAE

Le SC-VAE (Sparse Compression Variational Auto-Encoder) compresse l’information spatiale d’un facteur 16. Un asset à 1024³ voxels, soit plus d’un milliard de cellules, tient dans environ 9 600 tokens latents. C’est ce qui rend l’inférence praticable sur une carte grand public.

Étape 3 : diffusion via DiT

Un Diffusion Transformer standard (DiT) de 4 milliards de paramètres génère le volume voxel sparse à partir du latent. Il s’appuie sur la technique du Rectified Flow, qui réduit le nombre d’étapes nécessaires à la convergence.

Étape 4 : décodage géométrie + matériaux

L’O-Voxel est ensuite traduit en mesh polygonal. Chaque voxel porte une probabilité d’occupation, une normale, et les attributs PBR. La conversion vers maillage prend moins de 100 millisecondes grâce à l’accélération CUDA native (CuMesh).

Étape 5 : export GLB

Le fichier final est un GLB conforme au standard glTF 2.0, avec les canaux Base Color, Roughness, Metallic et Alpha séparés. Importable dans tout moteur PBR moderne.

À retenir. TRELLIS ne génère pas une image de 3D. Il génère une géométrie, des matériaux et de la transparence dans un seul passage, et livre un fichier directement utilisable.

3. Quelle est la différence entre TRELLIS v1 et TRELLIS.2

TRELLIS v1 introduit SLAT (Structured LATent), une représentation flexible qui décode vers Radiance Field, Gaussian Splat ou mesh. TRELLIS.2 abandonne les iso-surfaces, introduit O-Voxel, double les paramètres (2B vers 4B), et améliore la fidélité géométrique sur les arêtes vives, les surfaces non manifold et les structures internes fermées.

La différence n’est pas une mise à jour cosmétique. C’est un changement de nature interne. Pour comprendre l’écart, il faut regarder ce que chaque version sait modéliser.

Tableau comparatif v1 et v2

CritèreTRELLIS v1 (SLAT)TRELLIS.2 (O-Voxel)
Représentation interneChamps latents structurésVoxels sparse field-free
Paramètres2 milliards4 milliards
Sorties supportéesRadiance Field / Gaussian Splat / MeshMesh PBR direct
Géométries non manifoldLimitéesNatives
Arêtes vivesLisséesPréservées
Transparence (canal alpha)NonOui

Ce que cela change concrètement

Avec TRELLIS v1, un objet en verre à parois fines, une cage métallique, ou une coque ouverte révélant l’intérieur posaient problème. Le modèle lissait les arêtes ou refermait les surfaces. Avec TRELLIS.2, ces mêmes objets passent. Le saut est visible immédiatement sur des cas de test simples : une lampe à abat-jour translucide, une chaise design avec dossier ajouré, un objet brisé.

À retenir. TRELLIS.2 n’est pas une simple mise à jour. C’est un changement de représentation qui débloque les surfaces que v1 ne savait pas modéliser proprement.

4. Que change l’architecture O-Voxel pour la qualité géométrique

O-Voxel encode séparément la forme (f^shape) et l’apparence (f^mat) dans un volume voxel sparse, sans champ de distance signé. Conséquence pratique : les arêtes vives sont préservées, les surfaces non manifold sont autorisées, les structures internes fermées sont possibles, et la transparence est traitée nativement.

La rupture conceptuelle tient en quelques mots. Les modèles antérieurs reposaient sur les Signed Distance Fields (SDF). Cette approche encode la géométrie comme une fonction continue qui dit, pour chaque point de l’espace, à quelle distance il se trouve d’une surface. Très élégant mathématiquement, mais avec deux limites fortes : les SDF lissent les arêtes vives et ne savent pas représenter les surfaces ouvertes ou non manifold.

O-Voxel sort de ce cadre. Chaque voxel occupé porte trois informations distinctes : une probabilité d’occupation, une normale locale, et les attributs PBR. La géométrie n’est plus déduite d’une fonction continue, elle est stockée explicitement. Le modèle n’a plus besoin d’un Marching Cubes pour extraire la surface. La conversion voxel vers mesh devient quasi-instantanée.

Ce que cette bascule rend possible

Pour un directeur artistique, l’enjeu n’est pas la mathématique. C’est la palette d’objets désormais générables sans bricolage post-production :

  • Le verre, à parois fines, avec ses canaux alpha intacts.
  • Les arêtes franches d’un objet manufacturé : un boîtier électronique, une montre, une pièce de mobilier.
  • Les structures intérieures : un coquillage, une fleur, un objet brisé qui révèle ses entrailles.
  • Les surfaces non manifold : un drapé, une feuille, une membrane.

Composants techniques associés

L’architecture s’appuie sur plusieurs briques optimisées spécifiquement pour O-Voxel :

  • SC-VAE pour la compression spatiale (facteur 16).
  • FlexGEMM pour la convolution sparse, basée sur Triton (OpenAI).
  • CuMesh pour les utilitaires CUDA (décimation, UV-unwrapping).
  • Flash Attention v3 pour l’attention optimisée.

5. Comment TRELLIS se compare aux outils 3D payants

TRELLIS.2 mène sur la qualité géométrique brute et la vitesse, à coût nul puisqu’il tourne en local. Rodin V2 conserve l’avantage sur la rétopologie en quads. Meshy V6 reste pertinent sur la simplicité d’usage. Hunyuan3D-V2 souffre d’un PBR partiel et d’une vitesse inférieure. Tripo AI vise le marché API à intégrer.

Le marché 2026 ressemble à un quadrant : open source contre SaaS, qualité brute contre rétopologie de production. Aucun outil ne domine sur tous les axes. Le bon choix dépend du brief.

Tableau comparatif des cinq modèles principaux

ModèleCoûtVitesse (1024³)PBR natifRétopologie quads
TRELLIS.2 (Microsoft)Gratuit, MIT, local17 secondesOui (4 canaux)Non
Hunyuan3D-V2 (Tencent)Gratuit, local2 à 6 minutesPartielNon
Rodin V2 (Deemos)SaaS payant, 36 à 48 créditsVariableOui (manuel)Oui (auto)
Meshy V6SaaS payant, 96 créditsMoyenneOuiAvancé
Tripo AIAPI payanteRapideBasique à moyenVariable

Recommandation selon profil

ProfilBesoin principalRecommandation
Studio agile, GPU localVitesse + qualitéTRELLIS.2
Studio jeu, retopo critiqueQuads propresRodin V2
Marketing rapide, sans GPUSimplicitéMeshy V6
Plateforme produitIntégration APITripo AI
Workflow hybrideIdéation puis finitionTRELLIS.2 + Rodin V2

Le vrai gagnant en 2026

Aucun. Les studios qui s’en sortent le mieux combinent deux outils : TRELLIS.2 pour générer rapidement une géométrie de référence, Rodin V2 pour produire une rétopologie quad propre quand le projet le justifie. Le gain de temps n’est pas dans le choix d’un seul outil, il est dans le pipeline.

6. Quel matériel faut-il pour faire tourner TRELLIS en local

Une carte NVIDIA récente avec 24 Go de VRAM minimum, Linux ou WSL recommandé, CUDA 12.4, Python 3.8 ou supérieur. Validé sur A100 et H100, déployé sans souci sur RTX 3090 et RTX 4090. Pour les configurations 16 Go de VRAM, l’option xformers reste indispensable.

L’installation locale est faisable, mais elle exige de respecter quelques règles. Microsoft Research a optimisé TRELLIS.2 pour les GPU NVIDIA récents, et Triton (utilisé par FlexGEMM) ne tourne pas nativement sur Windows. La voie la plus stable reste Linux ou WSL Ubuntu.

Tableau exigences matérielles

ComposantMinimum viableConfortableProduction
GPURTX 3090 24 GoRTX 4090 24 GoH100 80 Go
VRAM16 Go (avec xformers)24 Go80 Go
RAM système32 Go64 Go128 Go
OSWindows + WSL UbuntuUbuntu 22.04Ubuntu 22.04
CUDA12.412.412.4

Issues GitHub à connaître avant de se lancer

L’écosystème évolue vite, et trois issues reviennent régulièrement chez les nouveaux installateurs :

  • Issue #147 (DINOv3 AttributeError). Solution validée : downgrade de la librairie transformers à la version 4.56.0.
  • Issue #154 (cuDNN error). Solution : aligner les paquets nvidia-cudnn et forcer torch.cuda.init() au démarrage.
  • Issue #136 (VRAM leak en 16 Go). Solution : passer le backend d’attention à xformers via export ATTN_BACKEND=xformers.

Note sur les licences tierces

Le code source de TRELLIS est sous MIT, mais l’inférence dépend de bibliothèques NVIDIA (nvdiffrast, nvdiffrec) qui ont leurs propres licences. Pour un usage commercial sérieux, vérifier ces conditions au cas par cas.

7. Comment intégrer TRELLIS dans ComfyUI

Deux dépôts communautaires installables proposent des nodes ComfyUI pour TRELLIS.2 : ComfyUI-Trellis2 (visualbruno) et ComfyUI-TRELLIS2 (PozzettiAndrea). Ils exposent les paramètres clés (résolution voxel, sampling steps, guidance) et permettent de chaîner image vers mesh PBR sans coder.

ComfyUI est devenu en 2026 le studio de bureau du créatif IA. Pour TRELLIS, c’est l’entrée la plus rapide. L’installation se fait via le ComfyUI Manager, en cherchant le nom du dépôt. Les modèles se téléchargent automatiquement au premier run, à condition d’avoir l’espace disque (compter une dizaine de gigaoctets).

Les deux workflows officiels

  • Geometry Only. Génère uniquement la géométrie, sans texture. Utile pour le grayboxing rapide, la validation de silhouette, le sketch d’idéation.
  • Geometry + Texture. Pipeline complet, géométrie plus matériaux PBR. Plus long mais directement exploitable.

Nodes notables à connaître

  • Sparse MultiView Generator. Réduit les hallucinations sur la face cachée en générant plusieurs vues virtuelles avant l’inférence 3D.
  • Fill Holes Nicely with Meshlib. Réparation topologique pour obtenir des meshs étanches (watertight), indispensables pour l’impression 3D.
  • Échantillonneurs avancés. Heun, RK4, RK5, pour gagner en qualité sur les pièces complexes.
  • Weld Vertices, Reconstruct Mesh with Quad, projection HighPoly vers LowPoly. Outils de finition, utiles avant l’export.

Hyperparamètres recommandés

Trois réglages pèsent fort sur le résultat :

  • SS Guidance Strength (par défaut 7.5). Contrôle l’adhérence aux contours 2D de l’image source. Augmenter si l’objet généré dérive de l’image. Réduire si le mesh paraît figé.
  • SLAT Guidance Strength (par défaut 3.0). Contrôle le raffinement sémantique. Plus la valeur est élevée, plus le modèle force la cohérence avec le prompt textuel.
  • Sampling Steps (par défaut 12, recommandé 16 à 20). Plus d’étapes égalent plus de qualité, au prix du temps.

Atelier de démarrage en cinq minutes

  1. Installer ComfyUI Manager.
  2. Chercher Trellis2 dans la liste des nodes communautaires.
  3. Installer ComfyUI-Trellis2 (visualbruno).
  4. Charger le workflow d’exemple Geometry+Texture.
  5. Glisser une image packshot sur le node d’entrée et cliquer sur Queue Prompt.

À retenir. ComfyUI est aujourd’hui la voie la plus rapide pour tester TRELLIS sans coder. Les deux workflows officiels couvrent 80 pour cent des cas.

8. Quels prompts et quelles images donnent les meilleurs résultats

L’image source pèse plus lourd que le prompt. Cadrage centré, fond neutre, éclairage type packshot e-commerce, vue trois quarts ou pose A. Le prompt sert d’ancrage sémantique, pas de description géométrique. Pour le pipeline texte-vers-3D, passer par Z-Image-Turbo en amont reste la voie la plus stable.

J’ai testé suffisamment d’images pour avoir une opinion ferme sur ce point. Une image bien préparée donne un mesh propre. Une image mal préparée donne un mesh creux, asymétrique, ou avec des hallucinations sur la face cachée. Aucun prompt ne rattrape une mauvaise image source.

Les quatre règles cardinales de l’image d’entrée

  1. Isolation absolue. Détourage propre via BRIA-RMBG-2.0 ou équivalent. Pas de fond complexe.
  2. Standardisation de l’éclairage. Lumière douce, type packshot e-commerce. Pas d’ombres marquées.
  3. Cadrage proportionnel et intégrité morphologique. Pose A ou T pour les figures organiques. Vue trois quarts pour les objets.
  4. Le paradoxe de la face cachée. L’image ne montre qu’un côté. Le modèle invente le reste. Pour limiter les hallucinations, utiliser le node Sparse MultiView Generator.

Tableau heuristique des images d’entrée

Type d’imageRésultat attenduRecommandation
Studio packshot trois quartsExcellentPréférer
Vue de face plateGéométrie creuse, dos platÉviter
Photo en contexte avec ombresBruit géométriqueRecadrer et nettoyer
Image générée IAVariableVérifier la cohérence multi-angles

Taxonomie textuelle pour le pipeline texte-vers-3D

Le pipeline officiel passe par Z-Image-Turbo pour générer une image avant d’appeler TRELLIS. Quelques formules qui donnent de bons résultats :

  • Organique et faune : A realistic Cat 3D model, A cartoon Cat 3D model, A low poly Cat 3D.
  • Mécanique et véhicules : A fighter jet Plane 3D, A commercial Plane 3D, A racing Car 3D.
  • Design et mobilier : A modern Chair 3D model, A Table 3D model, A standing Lamp 3D model.
  • Équipements et accessoires : A sneaker Shoe 3D, A leather Backpack 3D model, A headphone 3D model.

Le modèle réagit bien à la mention explicite 3D model et au style (realistic, cartoon, low poly). Le reste du prompt enrichit la sémantique sans peser sur la géométrie.

À retenir. Une bonne image source vaut dix prompts. Le pipeline texte-vers-3D doit toujours passer par une étape image bien cadrée.

9. Pour quels cas d’usage TRELLIS est vraiment pertinent

Quatre cas s’imposent en 2026 : prototypage produit, props secondaires de jeu vidéo, environnements metaverse, visualisation e-commerce. Trois cas restent à éviter : personnages animables, organique très fin (fourrure, drapé long), assets de production exigeant une rétopologie quad de niveau studio.

La question n’est pas « TRELLIS sait-il faire » mais « TRELLIS est-il le bon outil pour ce brief ». J’ai vu des studios perdre du temps en essayant de produire des personnages animables avec un modèle conçu pour des objets. C’est une erreur de cadrage.

Tableau de pertinence par profil

ProfilCas d’usage typiquePertinence TRELLIS
Studio jeu indéProps secondaires, mobilier, accessoiresForte
E-commerce et retailVisualisation produit, configurateurForte
ArchitectureMobilier d’ambiance, décorsMoyenne
Studio filmProps pour plans largesForte
Studio filmPersonnages animablesFaible
Impression 3DMaquettes, prototypesForte (avec watertight)

Trois cas où TRELLIS change la cadence

  • Prototypage produit. Du croquis à la maquette 3D en moins d’une heure. Permet de valider une silhouette avant le moindre brief de modeleur.
  • Props secondaires de jeu vidéo. Tous les objets de remplissage (chaises, lampes, bouteilles, accessoires de scène) qui ne nécessitent pas un travail de finition de niveau hero asset.
  • Visualisation e-commerce. Génération de vues 3D depuis le packshot existant, pour intégration sur site ou en réalité augmentée.

À retenir. TRELLIS excelle quand l’asset est un objet, pas un être vivant. Le bon brief commence par « j’ai un objet à produire », pas « j’ai un personnage à animer ».

10. Quelles limites connaître avant de l’adopter

Trois limites principales : la rétopologie n’est pas en quads propres, le rigging n’est pas géré, et la cohérence multi-assets d’une même série exige un travail manuel. Pour la production sérieuse, prévoir un poste de retopo dédié et une charte de cohérence visuelle en amont.

L’enthousiasme technologique masque souvent les limites. Voici ce que TRELLIS ne fait pas, et qu’aucun benchmark ne raconte.

Mythes vs Réalité

MytheRéalité
TRELLIS remplace un modeleur 3DIl accélère l’idéation et le prototypage. La finalisation reste humaine.
C’est gratuit donc sans coûtLe poste GPU et le temps humain de tri restent réels.
La 3D générative tue le métierElle déplace la valeur vers la direction artistique et la sélection.
On peut tout générer en quelques secondesVrai à 512³. Faux à 1536³ pour des objets complexes.

Les limites techniques précises

  • Rétopologie. TRELLIS produit un mesh triangulé, pas un mesh quad propre. Pour un asset de production, il faut une passe de retopo (manuelle ou via Rodin V2).
  • Rigging. Pas de squelette généré. Les personnages ne sont pas animables sans un travail de skinning.
  • Cohérence de série. Un meuble généré aujourd’hui et un autre demain n’auront pas exactement le même style. Pour une collection, il faut figer les seeds, les prompts, et idéalement passer par une charte visuelle.
  • Échelle. Pas de notion d’unité métrique native. Il faut redimensionner manuellement à l’import.

Limites éditoriales

Le risque principal n’est pas technique. C’est éditorial. Quand un studio gagne 80 pour cent du temps de modélisation, la tentation est de produire dix fois plus. Sans tri rigoureux, le résultat est un catalogue d’objets corrects mais sans direction. Le rôle du directeur artistique devient plus important, pas moins.

À retenir. Adopter TRELLIS aujourd’hui, c’est gagner sur l’idéation et le prototypage. Pas sur la production finale. Le tri humain reste le multiplicateur de valeur.

11. Erreurs fréquentes

Les erreurs les plus fréquentes ne sont pas techniques. Elles viennent du choix d’image source, de la mauvaise résolution voxel, de l’absence de tri éditorial, et de l’oubli de la phase de retopo. Quatre corrections suffisent à doubler la qualité moyenne d’un studio qui démarre.

Tableau des erreurs typiques

ErreurEffet sur le résultatCorrection
Image plate, vue de faceMesh creux, dos platPréférer un trois quarts isolé
Résolution voxel trop basse (512³)Géométrie grossière, arêtes mollesPasser à 1024³ minimum pour la production
Pas de tri humain entre 4 variantesAsset hors ton, hors charteToujours générer 4 à 8 seeds, trier en équipe
Skip de la retopoMesh inanimable, UV instablesPrévoir Rodin V2 ou retopo manuelle Blender
Prompt trop descriptif géométriquementConflits avec l’imageGarder le prompt sémantique, laisser l’image décrire la géométrie
Export sans vérifier l’alphaTransparence cassée à l’import moteurConnecter manuellement le canal alpha post-export

La règle des trois passes

Une heuristique simple qui marche sur 90 pour cent des projets :

  1. Première passe en 512³. Validation de la silhouette en quelques secondes.
  2. Deuxième passe en 1024³. Production de la version finale géométrique.
  3. Troisième passe optionnelle en 1536³. Réservée aux hero assets ou aux objets en gros plan.

À retenir. Les erreurs sont rarement techniques. Elles sont presque toutes éditoriales ou méthodologiques.

12. Méthode de travail recommandée

Adopter un workflow en cinq étapes : cadrer le brief comme une photo, produire l’image source, générer plusieurs variantes, trier en équipe, finaliser en moteur. Chaque étape a un livrable mesurable. Le directeur artistique intervient au tri, pas après.

Étape 1 : cadrer le brief comme pour de la photo

Décrire l’objet, sa lumière, son angle, sa matière. Pas sa géométrie polygonale. Le brief s’écrit comme un brief de packshot, pas comme un brief de modeleur.

Livrable : une page de brief, format moodboard plus liste de mots-clés.

Étape 2 : produire l’image source

Trois voies possibles : photo réelle (idéal pour un produit existant), banque packshot (mobilier, accessoires), image générée via Z-Image-Turbo ou équivalent.

Livrable : une image PNG isolée sur fond neutre, 1024 par 1024 minimum.

Étape 3 : générer plusieurs variantes

Quatre à huit seeds. Toujours. Même si la première variante semble bonne. La diversité permet de comparer.

Livrable : un dossier de 4 à 8 GLB.

Étape 4 : trier en équipe

Le rôle du directeur artistique commence ici. Une session de tri à deux paires d’yeux minimum, avec critères explicites : adhérence à la charte, lisibilité de la silhouette, qualité de la retopo brute.

Livrable : un GLB sélectionné et une note de validation.

Étape 5 : finaliser

Retopo (manuelle ou Rodin), UV, vérification du PBR, intégration moteur. Cette étape reste humaine et reste exigeante.

Livrable : un asset moteur prêt pour le plan ou la scène finale.

Tableau de répartition du temps idéal

ÉtapeTemps moyenPart du total
Brief15 min10 %
Image source20 min15 %
Génération10 min8 %
Tri éditorial15 min12 %
Finalisation60 min55 %

L’enseignement frappant : la génération elle-même ne représente qu’environ 8 pour cent du temps total. C’est le tri et la finalisation qui font la qualité.

À retenir. Le directeur artistique ne disparaît pas du workflow. Il en devient le filtre central. Sans tri éditorial rigoureux, la 3D générative produit du volume sans valeur.

13. Méthodologie et sources

Ce guide a été construit à partir du rapport détaillé Microsoft TRELLIS d’avril 2026, des publications officielles Microsoft Research, du dépôt GitHub microsoft/TRELLIS.2, des nodes ComfyUI communautaires (visualbruno, PozzettiAndrea), des benchmarks publiés sur NVIDIA H100, et de tests internes en studio entre janvier et avril 2026.

Sources principales

  1. Microsoft Research, page projet TRELLIS et TRELLIS.2 (microsoft.github.io/TRELLIS.2/).
  2. Dépôt GitHub officiel (github.com/microsoft/TRELLIS.2), incluant les issues #136, #147, #154.
  3. Hugging Face, modèle microsoft/TRELLIS.2-4B.
  4. Modèle de prétraitement briaai/RMBG-2.0.
  5. Démo Gradio publique TRELLIS.2-Text-to-3D (PRITHIVSAKTHIUR).
  6. Dépôts ComfyUI communautaires : ComfyUI-Trellis2 (visualbruno), ComfyUI-TRELLIS2 (PozzettiAndrea).
  7. Documentations comparatives Hunyuan3D-V2, Rodin V2, Meshy V6, Tripo AI.

Tests et observations

  • Benchmarks reproduits sur GPU NVIDIA H100 et RTX 4090.
  • Tests des deux workflows ComfyUI (Geometry Only et Geometry+Texture).
  • Cas concret studio en mars 2026 (asset prop pour court-métrage).
  • Comparaison qualitative en aveugle entre TRELLIS.2 et Rodin V2 sur six briefs identiques.

Limites du guide

L’écosystème évolue très vite. Hunyuan3D, Rodin et Meshy publient de nouvelles versions chaque trimestre. Les chiffres de vitesse sont valables au moment de la rédaction, sur le matériel cité. Les tarifs des SaaS payants peuvent changer sans préavis.

Conclusion : ce que TRELLIS oblige à repenser

Cinq points à garder en mémoire :

  1. La 3D générative open source est passée du stade démo au stade production en moins d’un an.
  2. TRELLIS.2 redistribue les cartes face aux SaaS payants, sur la qualité géométrique brute.
  3. Le vrai gain est sur l’idéation et le prototypage, pas sur la finalisation.
  4. Le rôle du directeur artistique se déplace vers la sélection et la cohérence éditoriale.
  5. Le bon workflow est hybride : modèle open source pour générer, retopologie dédiée pour finaliser, moteur PBR pour intégrer.

L’action concrète à tester cette semaine : prendre un asset prévu sur votre prochaine production, générer trois variantes via TRELLIS.2 dans ComfyUI, et mesurer le temps gagné par rapport à la voie classique. Cette mesure, faite sur un brief réel, vaut dix démos.


Derniers Guides

Seedance 2.0 - Le Guide Complet 2026 pour les créatifs

Seedance 2.0 • Le guide Complet 2026

Dominez la vidéo IA avec Seedance 2.0 de ByteDance. Découvrez les secrets de production, le système de balises @ et le workflow professionnel par plans.

Accéder au guide

Casting IA avec Wan 2.7-image

Casting IA avec Wan 2.7

L’anatomie faciale comme langage de direction. Un guide pour retrouver, à l’ère du casting synthétique, le vocabulaire précis qui permet de diriger un visage au lieu de le subir.

Accéder au guide

ChatGPT Images 2.0, le manuel

ChatGPT Images 2.0 • Le manuel

On ne prompte plus, on spécifie. L’image devient une structure sémantique que le modèle compose, édite et révise. Le prompt cesse d’être une invocation, il devient une architecture.

Accéder au manuel

formations IA

Le studio de production 360° : de la photo statique à la vidéo dynamique avec l’IA Google

Durée : 2 jours (14h). Public : Responsables E-commerce, Directeurs Marketing / Communication.

Réinventer son processus créatif avec l’IA générative

Durée : 5 jours (35h). Public : DA, Graphistes, designers. Durée : 5 jours (35h).

Gemini & Nano Banana 2 : du brief à l’image finale

Durée : 1 jour (7h). Public : Graphistes, Designers, Directeurs Artistiques

Adobe Firefly, le studio IA complet (image, vidéo et audio)

Durée : 1 jour (7h). Public : Content creators.

Décuplez vos capacités avec l’IA : formation prompting expert, assistants & automatisation

Durée : 1 jour (7h). Public : Responsables E-commerce, Directeurs Marketing / Communication.

Prompting vidéo : de l’idée à l’écran avec l’IA générative

Durée : 2 jours (14h). Public : DA, Graphistes.

Google Flow & Veo : l’orchestration cinématographique IA

Durée : 2 jours (14h). Public : DA, Réalisateurs, Motion designers.