DreamFusion représente une avancée majeure dans le domaine de la synthèse 3D à partir de texte, exploitant les récents progrès des modèles de diffusion pour l'image. Contrairement aux approches traditionnelles qui nécessitent de vastes ensembles de données 3D étiquetées, DreamFusion contourne cette limitation en utilisant un modèle de diffusion 2D pré-entraîné. Cette méthode novatrice repose sur une perte basée sur la distillation de la densité de probabilité, permettant d'utiliser un modèle de diffusion 2D comme prior pour l'optimisation d'un générateur d'images paramétrique.
Le processus de DreamFusion s'apparente à une procédure de type DeepDream, où un modèle 3D initialisé aléatoirement (un Neural Radiance Field, ou NeRF) est optimisé par descente de gradient. L'objectif est que les rendus 2D de ce modèle, vus sous différents angles, minimisent la perte définie. Le résultat est un modèle 3D qui peut être visualisé sous n'importe quel angle, éclairé par un éclairage arbitraire, ou intégré dans n'importe quel environnement 3D.
L'une des forces de DreamFusion est qu'il ne nécessite aucune donnée d'entraînement 3D et aucune modification du modèle de diffusion d'images, démontrant ainsi l'efficacité des modèles de diffusion d'images pré-entraînés comme priors. À partir d'une simple légende, DreamFusion génère des objets 3D relightables avec une apparence, une profondeur et des normales de haute fidélité. Ces objets sont représentés sous forme de Neural Radiance Field et s'appuient sur un prior de diffusion texte-à-image pré-entraîné, tel qu'Imagen.
DreamFusion ouvre de nouvelles perspectives pour la création de contenu 3D, permettant de générer des objets et des scènes à partir de légendes variées. Les modèles NeRF générés peuvent être exportés en maillages grâce à l'algorithme des cubes marchants, facilitant ainsi leur intégration dans des logiciels de rendu ou de modélisation 3D. Cette technologie promet de révolutionner la manière dont nous créons et interagissons avec les contenus 3D, en rendant la synthèse 3D accessible à un plus large public.