Dans l'écosystème de l'IA, les modèles de diffusion déterminent la direction et le rythme des progrès technologiques. Ils révolutionnent la façon dont nous abordons les tâches complexes d'IA générative. Ces modèles sont basés sur les mathématiques des principes gaussiens, de la variance, des équations différentielles et des séquences génératives. (Nous expliquerons le jargon technique ci-dessous)
Les produits et solutions modernes centrés sur l'IA développés par Nvidia, Google, Adobe et OpenAI ont mis les modèles de diffusion au centre de l'attention. DALL.E 2, Stable Diffusion et Midjourney sont des exemples frappants de modèles de diffusion qui font récemment le tour d'Internet. Les utilisateurs fournissent une simple invite de texte en entrée, et ces modèles peuvent les convertir en images réalistes.
Explorons les principes de fonctionnement fondamentaux des modèles de diffusion et comment ils changent les directions et les normes du monde tel que nous le voyons aujourd'hui.
Qu'est-ce que sont les modèles de diffusion ?
Selon la publication de recherche "Denoising Diffusion Probabilistic Models", les modèles de diffusion sont définis comme :
"Un modèle de diffusion ou un modèle de diffusion probabiliste est une chaîne de Markov paramétrée formée à l'aide d'inférence variationnelle pour produire des échantillons correspondant aux données après un temps fini"
En termes simples, les modèles de diffusion peuvent générer des données similaires à celles sur lesquelles ils sont entraînés. Si le modèle s'entraîne sur des images de chats, il peut générer des images réalistes pareils de chats.
Essayons maintenant de décomposer la définition technique mentionnée ci-dessus. Les modèles de diffusion s’inspirent du principe de fonctionnement et des fondements mathématiques d’un modèle probabiliste qui peut analyser et prédire le comportement d’un système qui varie dans le temps, comme prédire le rendement boursier ou la propagation de la pandémie.
La définition indique qu'il s'agit de chaînes de Markov paramétrées entraînées avec l'inférence variationnelle. Les chaînes de Markov sont des modèles mathématiques qui définissent un système qui bascule entre différents états au fil du temps. L'état existant du système ne peut déterminer que la probabilité de transition vers un état spécifique. En d'autres termes, l'état actuel d'un système contient les états possibles qu'un système peut suivre ou acquérir à un moment donné.
La formation du modèle à l'aide de l'inférence variationnelle implique des calculs complexes pour les distributions de probabilité. Il vise à trouver les paramètres exacts de la chaîne de Markov qui corresponde aux données observées (connues ou réelles) après un temps spécifique. Ce processus minimise la valeur de la fonction de perte du modèle, qui est la différence entre l'état prédit (inconnu) et observé (connu).
Une fois formé, le modèle peut générer des échantillons correspondant aux données observées. Ces échantillons représentent des trajectoires possibles ou indiquent que le système pourrait suivre ou acquérir au fil du temps, et chaque trajectoire a une probabilité différente de se produire. Par conséquent, le modèle peut prédire le comportement futur du système en générant une gamme d'échantillons et en trouvant leurs probabilités respectives.
Comment interpréter les modèles de diffusion en IA ?
Les modèles de diffusion sont des modèles génératifs profonds qui fonctionnent en ajoutant du bruit (bruit gaussien) aux données d'apprentissage disponibles (également connu sous le nom de processus de diffusion directe), puis en inversant le processus (connu sous le nom de débruitage ou processus de diffusion inverse) pour récupérer les données. Le modèle apprend progressivement à supprimer le bruit. Ce processus de débruitage appris génère de nouvelles images de haute qualité à partir de graines aléatoires (images bruitées aléatoires), comme le montre l'illustration ci-dessous.
3 catégories de modèles de diffusion
Il existe trois cadres mathématiques fondamentaux qui sous-tendent la science derrière les modèles de diffusion. Tous les trois fonctionnent sur les mêmes principes d'ajout de bruit puis de suppression pour générer de nouveaux échantillons. Discutons-en ci-dessous.
1. Modèles probabilistes de diffusion de débruitage (DDPM)
Comme expliqué ci-dessus, les DDPM sont des modèles génératifs principalement utilisés pour supprimer le bruit des données visuelles ou audio. Ils ont montré des résultats impressionnants sur diverses tâches de débruitage d'image et audio. Par exemple, l'industrie cinématographique utilise des outils modernes de traitement d'images et de vidéos pour améliorer la qualité de la production.
2. Modèles génératifs basés sur les scores (SGM) conditionnés par le bruit
Les SGM peuvent générer de nouveaux échantillons à partir d'une distribution donnée. Ils fonctionnent en apprenant une fonction de score d'estimation qui peut estimer la densité logarithmique de la distribution cible. L'estimation de la densité de journal fait des hypothèses pour les points de données disponibles qui font partie d'un ensemble de données inconnu (ensemble de test). Cette fonction de score peut alors générer de nouveaux points de données à partir de la distribution.
Par exemple, les deep fakes sont connus pour produire de fausses vidéos et audios de personnalités célèbres. Mais ils sont principalement attribués aux réseaux antagonistes génératifs (GAN). Cependant, les SGM ont montré des capacités similaires – parfois plus performantes – pour générer des visages de célébrités de haute qualité. En outre, les SGM peuvent aider à étendre les ensembles de données sur les soins de santé, qui ne sont pas facilement disponibles en grande quantité en raison des réglementations strictes et des normes de l'industrie.
3. Équations différentielles stochastiques (SDEs)
Les SDE décrivent les changements dans les processus aléatoires concernant le temps. Ils sont largement utilisés dans les marchés physiques et financiers impliquant des facteurs aléatoires qui ont un impact significatif sur les résultats du marché.
Par exemple, les prix des matières premières sont très dynamiques et impactés par une série de facteurs aléatoires. Les SDE calculent les dérivés financiers comme les contrats à terme ( comme les contrats sur le pétrole brut). Ils peuvent modéliser les fluctuations et calculer avec précision les prix favorables pour donner un sentiment de sécurité.
Principales applications des modèles de diffusion en IA
Examinons quelques pratiques et utilisations largement adaptées des modèles de diffusion en IA.
Génération de vidéos de haute qualité
La création de vidéos haut de gamme à l'aide de l'apprentissage en profondeur est un défi car elle nécessite une grande continuité des images vidéo. C'est là que les modèles de diffusion sont utiles parce qu'ils peuvent générer un sous-ensemble d'images vidéo à combler entre les images manquantes, ce qui donne des vidéos fluides et de haute qualité sans latence.
Les chercheurs ont développé le modèle de diffusion flexible et les techniques de diffusion vidéo résiduelle pour atteindre cet objectif. Ces modèles peuvent également produire des vidéos réalistes en ajoutant de manière transparente des images générées par l'IA entre les images réelles.
Ces modèles peuvent simplement étendre le FPS (frames per second=images par seconde) d'une vidéo à faible FPS en ajoutant des images factices après avoir appris les modèles à partir des images disponibles. Avec presque aucune perte d'image, ces cadres peuvent aider davantage les modèles basés sur l'apprentissage en profondeur à générer à partir de zéro des vidéos basées sur l'IA qui ressemblent à des prises de vue naturelles à partir de configurations de caméras haut de gamme.
Une large gamme de générateurs vidéo AI remarquables est disponible en 2023 pour rendre la production et l'édition de contenu vidéo rapides et simples.
Génération de texte en image
Les modèles texte-image utilisent des invites de saisie pour générer des images de haute qualité. Par exemple, donner une entrée "pomme rouge sur une assiette" et produire une image photoréaliste d'une pomme sur une assiette. La diffusion mixte et unCLIP sont deux exemples éminents de ces modèles qui peuvent générer des images très pertinentes et précises basées sur la saisie de l'utilisateur.
De plus, GLIDE by OpenAI est une autre solution largement connue publiée en 2021 qui produit des images photoréalistes à l'aide de la saisie de l'utilisateur. Plus tard, OpenAI a publié DALL.E-2, son modèle de génération d'images le plus avancé à ce jour.
De même, Google a également développé un modèle de génération d'images connu sous le nom d'Imagen, qui utilise un grand modèle de langage pour développer une compréhension textuelle approfondie du texte saisi, puis génère des images photoréalistes.
Nous avons mentionné ci-dessus d'autres outils de génération d'images populaires tels que Midjourney et Stable Diffusion (DreamStudio). Jetez un œil à une image générée à l'aide de Stable Diffusion ci-dessous.
Modèles de diffusion dans l'IA - À quoi s'attendre à l'avenir ?
Les modèles de diffusion ont révélé un potentiel prometteur en tant qu'approche robuste pour générer des échantillons de haute qualité à partir d'ensembles de données d'images et de vidéos complexes. En améliorant la capacité humaine à utiliser et à manipuler les données, les modèles de diffusion peuvent potentiellement révolutionner le monde tel que nous le voyons aujourd'hui. Nous pouvons nous attendre à voir encore plus d'applications des modèles de diffusion devenir partie intégrante de notre vie quotidienne.
Cela dit, les modèles de diffusion ne sont pas la seule technique d'IA générative. Les chercheurs utilisent également des réseaux antagonistes génératifs (GAN), des auto-encodeurs variationnels et des modèles génératifs profonds basés sur les flux pour générer du contenu IA. Comprendre les caractéristiques fondamentales qui différencient les modèles de diffusion des autres modèles génératifs peut aider à produire des solutions plus efficaces dans les jours à venir.