Cinéma synthétique : Pourquoi l'architecture DiT a gagné

L'architecture DiT (Diffusion Transformer) remplace les UNet classiques par des blocs Transformer qui opèrent sur des patches spatio-temporels. La différence critique pour la vidéo : le Transformer voit l'ensemble de la séquence temporelle comme un contexte, pas juste la frame en cours. Cela lui permet d'assurer la cohérence des lois physiques sur toute la durée du plan.

Kling a été le premier à exploiter ce principe pour la simulation physique dans la vidéo générative. Là où un UNet classique produisait des fluides qui "se téléportaient" d'une frame à l'autre, le DiT de Kling génère des fluides qui obéissent à des trajectoires causalement correctes — une vague qui déferle, une fumée qui monte en spirale, un tissu qui tombe selon son poids et sa rigidité.

Dans mes productions brand film — plans produit avec projection de liquide, drapé textile pour la mode, fumée et chaleur pour l'automobile — cette cohérence physique élimine la post-production corrective. Le plan est utilisable directement en sortie de génération, sans frame-by-frame cleanup. C'est ce qui transforme l'IA vidéo de jouet créatif en outil de production professionnelle.

#DiT #PhysicsEngine #VideoAI #KlingAI

Travailler avec Andy Lechapelier

Toyota, ESA, Thales, BNP Paribas, Safran, Alstom — 10 ans de production grand compte.
Direction artistique × IA générative × orchestration créative.

VOIR LE PORTFOLIO →