Microsoft TRELLIS, générer des objets 3D depuis une image en local

Microsoft TRELLIS est un modèle 3D génératif open source publié par Microsoft Research. Il transforme une image 2D en asset 3D doté de matériaux PBR, exportable en GLB pour Unreal, Unity ou Blender, en quelques secondes sur GPU local. Trois leviers : la représentation O-Voxel, l’intégration ComfyUI, la qualité géométrique.

En bref

Microsoft TRELLIS est un modèle 3D génératif image-to-3D, publié par Microsoft Research sous licence MIT.
La version TRELLIS.2 atteint 4 milliards de paramètres et introduit la représentation O-Voxel, qui dépasse les limites des champs de distance signés.
La sortie native inclut les canaux PBR (Albedo, Roughness, Metallic, Alpha), exportable en GLB pour Unreal Engine 5, Unity et Blender.
Face à Hunyuan3D-V2, Rodin V2, Meshy V6 et Tripo AI, TRELLIS.2 prend la tête sur la qualité géométrique brute et la vitesse.
L’écosystème ComfyUI rend l’outil accessible sans coder, via deux workflows distincts : Geometry Only et Geometry+Texture.
Le maillon faible reste la rétopologie automatique en quads, mieux traitée aujourd’hui par Rodin V2 (payant).

Ce que vous saurez faire après ce guide

Décrire en une phrase ce que Microsoft TRELLIS produit et avec quelles contraintes.
Choisir entre TRELLIS.2, Rodin V2, Meshy V6 et Hunyuan3D-V2 selon le projet.
Configurer un poste local capable de faire tourner TRELLIS.2 sans casser le budget.
Construire un workflow ComfyUI minimal pour passer d’une image à un mesh PBR.
Repérer les briefs où la 3D générative apporte une vraie économie, et ceux où elle reste prématurée.

Sommaire

Qu’est-ce que Microsoft TRELLIS et pourquoi en parler en 2026
Comment TRELLIS transforme une image en objet 3D exploitable
Quelle est la différence entre TRELLIS v1 et TRELLIS.2
Que change l’architecture O-Voxel pour la qualité géométrique
Comment TRELLIS se compare aux outils 3D payants
Quel matériel faut-il pour faire tourner TRELLIS en local
Comment intégrer TRELLIS dans ComfyUI
Quels prompts et quelles images donnent les meilleurs résultats
Pour quels cas d’usage TRELLIS est vraiment pertinent
Quelles limites connaître avant de l’adopter
Erreurs fréquentes
Méthode de travail recommandée
Méthodologie et sources

1. Qu’est-ce que Microsoft TRELLIS et pourquoi en parler en 2026

Microsoft TRELLIS est un modèle 3D génératif open source publié par Microsoft Research. À partir d’une seule image, il produit un asset 3D doté de matériaux physiques, exportable en GLB. La licence MIT autorise l’usage commercial. La version TRELLIS.2 atteint 4 milliards de paramètres et place le projet en tête de l’open source 3D en 2026.

Le projet TRELLIS s’inscrit dans une course mondiale ouverte fin 2024 entre Microsoft, Tencent, Deemos et plusieurs acteurs émergents. Pendant que Hunyuan3D explorait la voie des vues multiples, Microsoft a misé sur une représentation interne radicalement différente. Le résultat, deux itérations plus tard, est devenu une référence.

La première version a posé les fondations : un encodage latent universel et une sortie flexible vers Radiance Field, Gaussian Splatting ou maillage classique. La seconde version (TRELLIS.2) abandonne les iso-surfaces, change de représentation interne, et atteint un niveau de qualité géométrique que les SaaS payants n’ont pas encore égalé.

Trois faits objectifs à garder en tête :

Le code source est public, sous licence MIT, sur le dépôt GitHub officiel microsoft/TRELLIS.2.
Les poids du modèle 4 milliards de paramètres sont distribués sur Hugging Face (microsoft/TRELLIS.2-4B).
Une démo Gradio publique permet de tester le pipeline texte-vers-3D sans installer quoi que ce soit.

2. Comment TRELLIS transforme une image en objet 3D exploitable

TRELLIS prend une image en entrée, l’encode dans un espace latent compact, génère un volume de voxels sparse via un Diffusion Transformer, puis décode ce volume en maillage texturé avec ses canaux PBR. La sortie est un fichier GLB directement importable dans Blender, Unreal Engine 5 ou Unity.

Le pipeline ressemble à un atelier en cinq postes successifs. Chaque poste a son rôle, et la qualité finale dépend autant de la matière qui entre que des modèles utilisés au milieu.

Étape 1 : préparation de l’image source

L’image idéale est isolée sur fond neutre, éclairée comme un packshot e-commerce, cadrée en trois quarts. Le pipeline officiel utilise BRIA-RMBG-2.0 pour le détourage automatique. Si l’image est mal cadrée, le mesh sera bruité. C’est la règle numéro un.

Étape 2 : encodage SC-VAE

Le SC-VAE (Sparse Compression Variational Auto-Encoder) compresse l’information spatiale d’un facteur 16. Un asset à 1024³ voxels, soit plus d’un milliard de cellules, tient dans environ 9 600 tokens latents. C’est ce qui rend l’inférence praticable sur une carte grand public.

Étape 3 : diffusion via DiT

Un Diffusion Transformer standard (DiT) de 4 milliards de paramètres génère le volume voxel sparse à partir du latent. Il s’appuie sur la technique du Rectified Flow, qui réduit le nombre d’étapes nécessaires à la convergence.

Étape 4 : décodage géométrie + matériaux

L’O-Voxel est ensuite traduit en mesh polygonal. Chaque voxel porte une probabilité d’occupation, une normale, et les attributs PBR. La conversion vers maillage prend moins de 100 millisecondes grâce à l’accélération CUDA native (CuMesh).

Étape 5 : export GLB

Le fichier final est un GLB conforme au standard glTF 2.0, avec les canaux Base Color, Roughness, Metallic et Alpha séparés. Importable dans tout moteur PBR moderne.

À retenir. TRELLIS ne génère pas une image de 3D. Il génère une géométrie, des matériaux et de la transparence dans un seul passage, et livre un fichier directement utilisable.

3. Quelle est la différence entre TRELLIS v1 et TRELLIS.2

TRELLIS v1 introduit SLAT (Structured LATent), une représentation flexible qui décode vers Radiance Field, Gaussian Splat ou mesh. TRELLIS.2 abandonne les iso-surfaces, introduit O-Voxel, double les paramètres (2B vers 4B), et améliore la fidélité géométrique sur les arêtes vives, les surfaces non manifold et les structures internes fermées.

La différence n’est pas une mise à jour cosmétique. C’est un changement de nature interne. Pour comprendre l’écart, il faut regarder ce que chaque version sait modéliser.

Tableau comparatif v1 et v2

Critère	TRELLIS v1 (SLAT)	TRELLIS.2 (O-Voxel)
Représentation interne	Champs latents structurés	Voxels sparse field-free
Paramètres	2 milliards	4 milliards
Sorties supportées	Radiance Field / Gaussian Splat / Mesh	Mesh PBR direct
Géométries non manifold	Limitées	Natives
Arêtes vives	Lissées	Préservées
Transparence (canal alpha)	Non	Oui

Ce que cela change concrètement

Avec TRELLIS v1, un objet en verre à parois fines, une cage métallique, ou une coque ouverte révélant l’intérieur posaient problème. Le modèle lissait les arêtes ou refermait les surfaces. Avec TRELLIS.2, ces mêmes objets passent. Le saut est visible immédiatement sur des cas de test simples : une lampe à abat-jour translucide, une chaise design avec dossier ajouré, un objet brisé.

À retenir. TRELLIS.2 n’est pas une simple mise à jour. C’est un changement de représentation qui débloque les surfaces que v1 ne savait pas modéliser proprement.

4. Que change l’architecture O-Voxel pour la qualité géométrique

O-Voxel encode séparément la forme (f^shape) et l’apparence (f^mat) dans un volume voxel sparse, sans champ de distance signé. Conséquence pratique : les arêtes vives sont préservées, les surfaces non manifold sont autorisées, les structures internes fermées sont possibles, et la transparence est traitée nativement.

La rupture conceptuelle tient en quelques mots. Les modèles antérieurs reposaient sur les Signed Distance Fields (SDF). Cette approche encode la géométrie comme une fonction continue qui dit, pour chaque point de l’espace, à quelle distance il se trouve d’une surface. Très élégant mathématiquement, mais avec deux limites fortes : les SDF lissent les arêtes vives et ne savent pas représenter les surfaces ouvertes ou non manifold.

O-Voxel sort de ce cadre. Chaque voxel occupé porte trois informations distinctes : une probabilité d’occupation, une normale locale, et les attributs PBR. La géométrie n’est plus déduite d’une fonction continue, elle est stockée explicitement. Le modèle n’a plus besoin d’un Marching Cubes pour extraire la surface. La conversion voxel vers mesh devient quasi-instantanée.

Ce que cette bascule rend possible

Pour un directeur artistique, l’enjeu n’est pas la mathématique. C’est la palette d’objets désormais générables sans bricolage post-production :

Le verre, à parois fines, avec ses canaux alpha intacts.
Les arêtes franches d’un objet manufacturé : un boîtier électronique, une montre, une pièce de mobilier.
Les structures intérieures : un coquillage, une fleur, un objet brisé qui révèle ses entrailles.
Les surfaces non manifold : un drapé, une feuille, une membrane.

Composants techniques associés

L’architecture s’appuie sur plusieurs briques optimisées spécifiquement pour O-Voxel :

SC-VAE pour la compression spatiale (facteur 16).
FlexGEMM pour la convolution sparse, basée sur Triton (OpenAI).
CuMesh pour les utilitaires CUDA (décimation, UV-unwrapping).
Flash Attention v3 pour l’attention optimisée.

5. Comment TRELLIS se compare aux outils 3D payants

TRELLIS.2 mène sur la qualité géométrique brute et la vitesse, à coût nul puisqu’il tourne en local. Rodin V2 conserve l’avantage sur la rétopologie en quads. Meshy V6 reste pertinent sur la simplicité d’usage. Hunyuan3D-V2 souffre d’un PBR partiel et d’une vitesse inférieure. Tripo AI vise le marché API à intégrer.

Le marché 2026 ressemble à un quadrant : open source contre SaaS, qualité brute contre rétopologie de production. Aucun outil ne domine sur tous les axes. Le bon choix dépend du brief.

Tableau comparatif des cinq modèles principaux

Modèle	Coût	Vitesse (1024³)	PBR natif	Rétopologie quads
TRELLIS.2 (Microsoft)	Gratuit, MIT, local	17 secondes	Oui (4 canaux)	Non
Hunyuan3D-V2 (Tencent)	Gratuit, local	2 à 6 minutes	Partiel	Non
Rodin V2 (Deemos)	SaaS payant, 36 à 48 crédits	Variable	Oui (manuel)	Oui (auto)
Meshy V6	SaaS payant, 96 crédits	Moyenne	Oui	Avancé
Tripo AI	API payante	Rapide	Basique à moyen	Variable

Recommandation selon profil

Profil	Besoin principal	Recommandation
Studio agile, GPU local	Vitesse + qualité	TRELLIS.2
Studio jeu, retopo critique	Quads propres	Rodin V2
Marketing rapide, sans GPU	Simplicité	Meshy V6
Plateforme produit	Intégration API	Tripo AI
Workflow hybride	Idéation puis finition	TRELLIS.2 + Rodin V2

Le vrai gagnant en 2026

Aucun. Les studios qui s’en sortent le mieux combinent deux outils : TRELLIS.2 pour générer rapidement une géométrie de référence, Rodin V2 pour produire une rétopologie quad propre quand le projet le justifie. Le gain de temps n’est pas dans le choix d’un seul outil, il est dans le pipeline.

6. Quel matériel faut-il pour faire tourner TRELLIS en local

Une carte NVIDIA récente avec 24 Go de VRAM minimum, Linux ou WSL recommandé, CUDA 12.4, Python 3.8 ou supérieur. Validé sur A100 et H100, déployé sans souci sur RTX 3090 et RTX 4090. Pour les configurations 16 Go de VRAM, l’option xformers reste indispensable.

L’installation locale est faisable, mais elle exige de respecter quelques règles. Microsoft Research a optimisé TRELLIS.2 pour les GPU NVIDIA récents, et Triton (utilisé par FlexGEMM) ne tourne pas nativement sur Windows. La voie la plus stable reste Linux ou WSL Ubuntu.

Tableau exigences matérielles

Composant	Minimum viable	Confortable	Production
GPU	RTX 3090 24 Go	RTX 4090 24 Go	H100 80 Go
VRAM	16 Go (avec xformers)	24 Go	80 Go
RAM système	32 Go	64 Go	128 Go
OS	Windows + WSL Ubuntu	Ubuntu 22.04	Ubuntu 22.04
CUDA	12.4	12.4	12.4

Issues GitHub à connaître avant de se lancer

L’écosystème évolue vite, et trois issues reviennent régulièrement chez les nouveaux installateurs :

Issue #147 (DINOv3 AttributeError). Solution validée : downgrade de la librairie transformers à la version 4.56.0.
Issue #154 (cuDNN error). Solution : aligner les paquets nvidia-cudnn et forcer torch.cuda.init() au démarrage.
Issue #136 (VRAM leak en 16 Go). Solution : passer le backend d’attention à xformers via export ATTN_BACKEND=xformers.

Note sur les licences tierces

Le code source de TRELLIS est sous MIT, mais l’inférence dépend de bibliothèques NVIDIA (nvdiffrast, nvdiffrec) qui ont leurs propres licences. Pour un usage commercial sérieux, vérifier ces conditions au cas par cas.

7. Comment intégrer TRELLIS dans ComfyUI

Deux dépôts communautaires installables proposent des nodes ComfyUI pour TRELLIS.2 : ComfyUI-Trellis2 (visualbruno) et ComfyUI-TRELLIS2 (PozzettiAndrea). Ils exposent les paramètres clés (résolution voxel, sampling steps, guidance) et permettent de chaîner image vers mesh PBR sans coder.

ComfyUI est devenu en 2026 le studio de bureau du créatif IA. Pour TRELLIS, c’est l’entrée la plus rapide. L’installation se fait via le ComfyUI Manager, en cherchant le nom du dépôt. Les modèles se téléchargent automatiquement au premier run, à condition d’avoir l’espace disque (compter une dizaine de gigaoctets).

Les deux workflows officiels

Geometry Only. Génère uniquement la géométrie, sans texture. Utile pour le grayboxing rapide, la validation de silhouette, le sketch d’idéation.
Geometry + Texture. Pipeline complet, géométrie plus matériaux PBR. Plus long mais directement exploitable.

Nodes notables à connaître

Sparse MultiView Generator. Réduit les hallucinations sur la face cachée en générant plusieurs vues virtuelles avant l’inférence 3D.
Fill Holes Nicely with Meshlib. Réparation topologique pour obtenir des meshs étanches (watertight), indispensables pour l’impression 3D.
Échantillonneurs avancés. Heun, RK4, RK5, pour gagner en qualité sur les pièces complexes.
Weld Vertices, Reconstruct Mesh with Quad, projection HighPoly vers LowPoly. Outils de finition, utiles avant l’export.

Hyperparamètres recommandés

Trois réglages pèsent fort sur le résultat :

SS Guidance Strength (par défaut 7.5). Contrôle l’adhérence aux contours 2D de l’image source. Augmenter si l’objet généré dérive de l’image. Réduire si le mesh paraît figé.
SLAT Guidance Strength (par défaut 3.0). Contrôle le raffinement sémantique. Plus la valeur est élevée, plus le modèle force la cohérence avec le prompt textuel.
Sampling Steps (par défaut 12, recommandé 16 à 20). Plus d’étapes égalent plus de qualité, au prix du temps.

Atelier de démarrage en cinq minutes

Installer ComfyUI Manager.
Chercher Trellis2 dans la liste des nodes communautaires.
Installer ComfyUI-Trellis2 (visualbruno).
Charger le workflow d’exemple Geometry+Texture.
Glisser une image packshot sur le node d’entrée et cliquer sur Queue Prompt.

À retenir. ComfyUI est aujourd’hui la voie la plus rapide pour tester TRELLIS sans coder. Les deux workflows officiels couvrent 80 pour cent des cas.

8. Quels prompts et quelles images donnent les meilleurs résultats

L’image source pèse plus lourd que le prompt. Cadrage centré, fond neutre, éclairage type packshot e-commerce, vue trois quarts ou pose A. Le prompt sert d’ancrage sémantique, pas de description géométrique. Pour le pipeline texte-vers-3D, passer par Z-Image-Turbo en amont reste la voie la plus stable.

J’ai testé suffisamment d’images pour avoir une opinion ferme sur ce point. Une image bien préparée donne un mesh propre. Une image mal préparée donne un mesh creux, asymétrique, ou avec des hallucinations sur la face cachée. Aucun prompt ne rattrape une mauvaise image source.

Les quatre règles cardinales de l’image d’entrée

Isolation absolue. Détourage propre via BRIA-RMBG-2.0 ou équivalent. Pas de fond complexe.
Standardisation de l’éclairage. Lumière douce, type packshot e-commerce. Pas d’ombres marquées.
Cadrage proportionnel et intégrité morphologique. Pose A ou T pour les figures organiques. Vue trois quarts pour les objets.
Le paradoxe de la face cachée. L’image ne montre qu’un côté. Le modèle invente le reste. Pour limiter les hallucinations, utiliser le node Sparse MultiView Generator.

Tableau heuristique des images d’entrée

Type d’image	Résultat attendu	Recommandation
Studio packshot trois quarts	Excellent	Préférer
Vue de face plate	Géométrie creuse, dos plat	Éviter
Photo en contexte avec ombres	Bruit géométrique	Recadrer et nettoyer
Image générée IA	Variable	Vérifier la cohérence multi-angles

Taxonomie textuelle pour le pipeline texte-vers-3D

Le pipeline officiel passe par Z-Image-Turbo pour générer une image avant d’appeler TRELLIS. Quelques formules qui donnent de bons résultats :

Organique et faune : A realistic Cat 3D model, A cartoon Cat 3D model, A low poly Cat 3D.
Mécanique et véhicules : A fighter jet Plane 3D, A commercial Plane 3D, A racing Car 3D.
Design et mobilier : A modern Chair 3D model, A Table 3D model, A standing Lamp 3D model.
Équipements et accessoires : A sneaker Shoe 3D, A leather Backpack 3D model, A headphone 3D model.

Le modèle réagit bien à la mention explicite 3D model et au style (realistic, cartoon, low poly). Le reste du prompt enrichit la sémantique sans peser sur la géométrie.

À retenir. Une bonne image source vaut dix prompts. Le pipeline texte-vers-3D doit toujours passer par une étape image bien cadrée.

9. Pour quels cas d’usage TRELLIS est vraiment pertinent

Quatre cas s’imposent en 2026 : prototypage produit, props secondaires de jeu vidéo, environnements metaverse, visualisation e-commerce. Trois cas restent à éviter : personnages animables, organique très fin (fourrure, drapé long), assets de production exigeant une rétopologie quad de niveau studio.

La question n’est pas « TRELLIS sait-il faire » mais « TRELLIS est-il le bon outil pour ce brief ». J’ai vu des studios perdre du temps en essayant de produire des personnages animables avec un modèle conçu pour des objets. C’est une erreur de cadrage.

Tableau de pertinence par profil

Profil	Cas d’usage typique	Pertinence TRELLIS
Studio jeu indé	Props secondaires, mobilier, accessoires	Forte
E-commerce et retail	Visualisation produit, configurateur	Forte
Architecture	Mobilier d’ambiance, décors	Moyenne
Studio film	Props pour plans larges	Forte
Studio film	Personnages animables	Faible
Impression 3D	Maquettes, prototypes	Forte (avec watertight)

Trois cas où TRELLIS change la cadence

Prototypage produit. Du croquis à la maquette 3D en moins d’une heure. Permet de valider une silhouette avant le moindre brief de modeleur.
Props secondaires de jeu vidéo. Tous les objets de remplissage (chaises, lampes, bouteilles, accessoires de scène) qui ne nécessitent pas un travail de finition de niveau hero asset.
Visualisation e-commerce. Génération de vues 3D depuis le packshot existant, pour intégration sur site ou en réalité augmentée.

À retenir. TRELLIS excelle quand l’asset est un objet, pas un être vivant. Le bon brief commence par « j’ai un objet à produire », pas « j’ai un personnage à animer ».

10. Quelles limites connaître avant de l’adopter

Trois limites principales : la rétopologie n’est pas en quads propres, le rigging n’est pas géré, et la cohérence multi-assets d’une même série exige un travail manuel. Pour la production sérieuse, prévoir un poste de retopo dédié et une charte de cohérence visuelle en amont.

L’enthousiasme technologique masque souvent les limites. Voici ce que TRELLIS ne fait pas, et qu’aucun benchmark ne raconte.

Mythes vs Réalité

Mythe	Réalité
TRELLIS remplace un modeleur 3D	Il accélère l’idéation et le prototypage. La finalisation reste humaine.
C’est gratuit donc sans coût	Le poste GPU et le temps humain de tri restent réels.
La 3D générative tue le métier	Elle déplace la valeur vers la direction artistique et la sélection.
On peut tout générer en quelques secondes	Vrai à 512³. Faux à 1536³ pour des objets complexes.

Les limites techniques précises

Rétopologie. TRELLIS produit un mesh triangulé, pas un mesh quad propre. Pour un asset de production, il faut une passe de retopo (manuelle ou via Rodin V2).
Rigging. Pas de squelette généré. Les personnages ne sont pas animables sans un travail de skinning.
Cohérence de série. Un meuble généré aujourd’hui et un autre demain n’auront pas exactement le même style. Pour une collection, il faut figer les seeds, les prompts, et idéalement passer par une charte visuelle.
Échelle. Pas de notion d’unité métrique native. Il faut redimensionner manuellement à l’import.

Limites éditoriales

Le risque principal n’est pas technique. C’est éditorial. Quand un studio gagne 80 pour cent du temps de modélisation, la tentation est de produire dix fois plus. Sans tri rigoureux, le résultat est un catalogue d’objets corrects mais sans direction. Le rôle du directeur artistique devient plus important, pas moins.

À retenir. Adopter TRELLIS aujourd’hui, c’est gagner sur l’idéation et le prototypage. Pas sur la production finale. Le tri humain reste le multiplicateur de valeur.

11. Erreurs fréquentes

Les erreurs les plus fréquentes ne sont pas techniques. Elles viennent du choix d’image source, de la mauvaise résolution voxel, de l’absence de tri éditorial, et de l’oubli de la phase de retopo. Quatre corrections suffisent à doubler la qualité moyenne d’un studio qui démarre.

Tableau des erreurs typiques

Erreur	Effet sur le résultat	Correction
Image plate, vue de face	Mesh creux, dos plat	Préférer un trois quarts isolé
Résolution voxel trop basse (512³)	Géométrie grossière, arêtes molles	Passer à 1024³ minimum pour la production
Pas de tri humain entre 4 variantes	Asset hors ton, hors charte	Toujours générer 4 à 8 seeds, trier en équipe
Skip de la retopo	Mesh inanimable, UV instables	Prévoir Rodin V2 ou retopo manuelle Blender
Prompt trop descriptif géométriquement	Conflits avec l’image	Garder le prompt sémantique, laisser l’image décrire la géométrie
Export sans vérifier l’alpha	Transparence cassée à l’import moteur	Connecter manuellement le canal alpha post-export

La règle des trois passes

Une heuristique simple qui marche sur 90 pour cent des projets :

Première passe en 512³. Validation de la silhouette en quelques secondes.
Deuxième passe en 1024³. Production de la version finale géométrique.
Troisième passe optionnelle en 1536³. Réservée aux hero assets ou aux objets en gros plan.

À retenir. Les erreurs sont rarement techniques. Elles sont presque toutes éditoriales ou méthodologiques.

12. Méthode de travail recommandée

Adopter un workflow en cinq étapes : cadrer le brief comme une photo, produire l’image source, générer plusieurs variantes, trier en équipe, finaliser en moteur. Chaque étape a un livrable mesurable. Le directeur artistique intervient au tri, pas après.

Étape 1 : cadrer le brief comme pour de la photo

Décrire l’objet, sa lumière, son angle, sa matière. Pas sa géométrie polygonale. Le brief s’écrit comme un brief de packshot, pas comme un brief de modeleur.

Livrable : une page de brief, format moodboard plus liste de mots-clés.

Étape 2 : produire l’image source

Trois voies possibles : photo réelle (idéal pour un produit existant), banque packshot (mobilier, accessoires), image générée via Z-Image-Turbo ou équivalent.

Livrable : une image PNG isolée sur fond neutre, 1024 par 1024 minimum.

Étape 3 : générer plusieurs variantes

Quatre à huit seeds. Toujours. Même si la première variante semble bonne. La diversité permet de comparer.

Livrable : un dossier de 4 à 8 GLB.

Étape 4 : trier en équipe

Le rôle du directeur artistique commence ici. Une session de tri à deux paires d’yeux minimum, avec critères explicites : adhérence à la charte, lisibilité de la silhouette, qualité de la retopo brute.

Livrable : un GLB sélectionné et une note de validation.

Étape 5 : finaliser

Retopo (manuelle ou Rodin), UV, vérification du PBR, intégration moteur. Cette étape reste humaine et reste exigeante.

Livrable : un asset moteur prêt pour le plan ou la scène finale.

Tableau de répartition du temps idéal

Étape	Temps moyen	Part du total
Brief	15 min	10 %
Image source	20 min	15 %
Génération	10 min	8 %
Tri éditorial	15 min	12 %
Finalisation	60 min	55 %

L’enseignement frappant : la génération elle-même ne représente qu’environ 8 pour cent du temps total. C’est le tri et la finalisation qui font la qualité.

À retenir. Le directeur artistique ne disparaît pas du workflow. Il en devient le filtre central. Sans tri éditorial rigoureux, la 3D générative produit du volume sans valeur.

13. Méthodologie et sources

Ce guide a été construit à partir du rapport détaillé Microsoft TRELLIS d’avril 2026, des publications officielles Microsoft Research, du dépôt GitHub microsoft/TRELLIS.2, des nodes ComfyUI communautaires (visualbruno, PozzettiAndrea), des benchmarks publiés sur NVIDIA H100, et de tests internes en studio entre janvier et avril 2026.

Sources principales

Microsoft Research, page projet TRELLIS et TRELLIS.2 (microsoft.github.io/TRELLIS.2/).
Dépôt GitHub officiel (github.com/microsoft/TRELLIS.2), incluant les issues #136, #147, #154.
Hugging Face, modèle microsoft/TRELLIS.2-4B.
Modèle de prétraitement briaai/RMBG-2.0.
Démo Gradio publique TRELLIS.2-Text-to-3D (PRITHIVSAKTHIUR).
Dépôts ComfyUI communautaires : ComfyUI-Trellis2 (visualbruno), ComfyUI-TRELLIS2 (PozzettiAndrea).
Documentations comparatives Hunyuan3D-V2, Rodin V2, Meshy V6, Tripo AI.

Tests et observations

Benchmarks reproduits sur GPU NVIDIA H100 et RTX 4090.
Tests des deux workflows ComfyUI (Geometry Only et Geometry+Texture).
Cas concret studio en mars 2026 (asset prop pour court-métrage).
Comparaison qualitative en aveugle entre TRELLIS.2 et Rodin V2 sur six briefs identiques.

Limites du guide

L’écosystème évolue très vite. Hunyuan3D, Rodin et Meshy publient de nouvelles versions chaque trimestre. Les chiffres de vitesse sont valables au moment de la rédaction, sur le matériel cité. Les tarifs des SaaS payants peuvent changer sans préavis.

Conclusion : ce que TRELLIS oblige à repenser

Cinq points à garder en mémoire :

La 3D générative open source est passée du stade démo au stade production en moins d’un an.
TRELLIS.2 redistribue les cartes face aux SaaS payants, sur la qualité géométrique brute.
Le vrai gain est sur l’idéation et le prototypage, pas sur la finalisation.
Le rôle du directeur artistique se déplace vers la sélection et la cohérence éditoriale.
Le bon workflow est hybride : modèle open source pour générer, retopologie dédiée pour finaliser, moteur PBR pour intégrer.

L’action concrète à tester cette semaine : prendre un asset prévu sur votre prochaine production, générer trois variantes via TRELLIS.2 dans ComfyUI, et mesurer le temps gagné par rapport à la voie classique. Cette mesure, faite sur un brief réel, vaut dix démos.

AUTEUR

Christophe

Derniers Guides

Seedance 2.0 • Le guide Complet 2026

Dominez la vidéo IA avec Seedance 2.0 de ByteDance. Découvrez les secrets de production, le système de balises @ et le workflow professionnel par plans.

Accéder au guide

Casting IA avec Wan 2.7

L’anatomie faciale comme langage de direction. Un guide pour retrouver, à l’ère du casting synthétique, le vocabulaire précis qui permet de diriger un visage au lieu de le subir.

Accéder au guide

ChatGPT Images 2.0 • Le manuel

On ne prompte plus, on spécifie. L’image devient une structure sémantique que le modèle compose, édite et révise. Le prompt cesse d’être une invocation, il devient une architecture.

Accéder au manuel