IA Créative • 10 mai 2026

Google teste un modèle Omni vidéo audio natif avant Google I/O 2026

Google teste un nouveau modèle baptisé Omni qui génère vidéo et audio spatial dans un seul passage, en vue de Google I/O 2026 prévu du 19 au 20 mai à Mountain View (Tom’s Guide).

La promesse n’est pas seulement la qualité visuelle, mais l’alignement intrinsèque entre image et son. Une scène d’orage produit ses propres tonnerres, calés sur la pluie et la lumière. Pour les studios qui assemblent encore vidéo et son sur deux pipelines distincts, ce basculement multimodal rend caduque une partie du sound design d’appoint et déplace le travail en amont, vers la direction de la scène.


Picsart lance un CLI et un serveur MCP pour agents créatifs

Picsart a publié le 28 avril 2026 son GenAI CLI et son serveur MCP, qui exposent plus de 130 modèles d’image, vidéo et audio aux agents IA via une seule interface (Businesswire).

L’intégration native couvre Claude Code, Cursor, Codex, Windsurf, ainsi que des frameworks d’agents autonomes. Un studio peut désormais brancher Flux, Sora, Kling, Veo ou ElevenLabs depuis un même endpoint, sans recoder un connecteur par modèle. La couche programmable de la production créative, sujet exploré dans les formations IA générative de creativeai.fr, passe d’un bricolage maison à un standard outil.


Adobe Firefly synchronise la traduction et le doublage IA avec lip sync

Adobe a généralisé dans Firefly une fonction de traduction et de doublage IA qui préserve la voix d’origine et synchronise les lèvres du locuteur (Adobe).

Le modèle conserve la cadence, le timbre et la couleur acoustique de la voix initiale, puis ajuste le mouvement des lèvres image par image. Pour la production publicitaire et les contenus de marque, c’est la fin du sous-titrage de remplacement et l’arrivée d’un doublage natif, par défaut. Une vidéo n’est plus localisée après coup, elle naît multilingue, ce qui change la chronologie d’une diffusion mondiale.


Claude Design génère des prototypes interactifs sans passer par Figma

Anthropic a lancé Claude Design en avril 2026, un outil qui produit des prototypes interactifs complets à partir d’une description en langage naturel, sans ouvrir Figma ni mobiliser un designer (Creative Bloq).

L’objet n’est pas un livrable visuel, c’est une maquette cliquable. Les équipes produit peuvent tester un parcours, une composition d’écrans, un état d’erreur, sans assembler manuellement les artboards. Le prototype redevient ce qu’il devrait être, un brouillon rapide pour décider, pas un livrable de fin de cycle. La conséquence sur le métier est plus large que l’outil, le designer se déplace vers la définition du système.


Un papier arXiv mesure l’écart de perception entre humains et détecteurs d’images IA

Une équipe a publié sur arXiv le 7 mai 2026 un papier intitulé AI-Generated Images: What Humans and Machines See When They Look at the Same Image, qui compare les zones d’attention humaines et machines sur un dataset de fausses images photoréalistes (arXiv).

Les chercheurs montrent que les détecteurs s’appuient sur des artefacts statistiques, là où les humains regardent surtout les visages et les mains. L’écart n’est pas anecdotique. Il signifie qu’un modèle qui passe l’œil humain peut échouer à passer un détecteur, et inversement. Pour les directions artistiques, c’est un cadre utile pour penser la traçabilité d’un asset IA en chaîne de production.

Derniers Guides

Seedance 2.0 - Le Guide Complet 2026 pour les créatifs

Seedance 2.0 • Le guide Complet 2026

Dominez la vidéo IA avec Seedance 2.0 de ByteDance. Découvrez les secrets de production, le système de balises @ et le workflow professionnel par plans.

Accéder au guide

Termes cinéma & IA • diriger l’image comme un réalisateur

Le cinéma a mis plus d’un siècle à construire un vocabulaire pour parler de distance, de regard, de tension, de lumière et de mouvement. Les modèles IA lisent ce vocabulaire comme une série de commandes visuelles.

Accéder au guide

ChatGPT Images 2.0, le manuel

ChatGPT Images 2.0 • Le manuel

On ne prompte plus, on spécifie. L’image devient une structure sémantique que le modèle compose, édite et révise. Le prompt cesse d’être une invocation, il devient une architecture.

Accéder au manuel

formations IA

Réinventer son processus créatif avec l’IA générative

Durée : 5 jours (35h). Public : DA, graphistes, designers

Gemini & Nano Banana 2 : du brief à l’image finale

Content Factory Pilot 30 jours : construire un système éditorial IA réellement utilisable

Durée : 30 jours (accompagnement). Public : dirigeants, équipes marketing & communication

Le studio de production 360° : de la photo à la vidéo avec l’IA Google

Durée : 2 jours (14h). Public : responsables e-commerce, équipes marketing & communication


actualités

  • Google teste un modèle Omni vidéo audio natif avant Google I/O 2026 Google teste un nouveau modèle baptisé Omni qui…

    Lire la suite

  • OpenAI retire DALL-E le 12 mai et bascule tout sur ChatGPT Images 2.0 OpenAI a confirmé que DALL-E 2 et…

    Lire la suite

  • Runway publie Characters, des personnages vidéo à 37 millisecondes par image Runway a lancé Characters, un modèle qui transforme une…

    Lire la suite