L’IA de Meta peut générer une vidéo à partir d’un texte

Il y a quelques mois à peine, nous parlions avec excitation et surprise d'IA capables de générer des images à partir de textes. Aujourd'hui, il semble que la technologie ait progressé à pas de géant, et nous disposons déjà de modèles capables de créer des vidéos basées sur le même principe.

Donc, Meta est maintenant capable de présente son intelligence artificielle Make-A-Video, et les vidéos qu’elle génère sont aussi surprenantes qu’effrayantes.

Comme d’autres modèles similaires, Make-A-Video vous invite à saisir une description de ce que vous souhaitez générer. Ainsi, après avoir tapé « Un chien portant une cape de super-héros rouge et volant dans le ciel », vous obtiendrez le résultat escompté. N’oubliez pas que cette technologie n’en est qu’à ses débuts et que les vidéos générées pourraient être pour le moins intéressantes.

Make-A-Video n’est pas encore disponible pour le public. Cependant, certains ont déjà pu l’essayer. Malgré ses débuts, les résultats sont impressionnants, et nous sommes impatients de voir comment cette intelligence artificielle va progresser au fil des ans. Comme l’IA génératrice d’images, elle pourrait bientôt remplacer certains des domaines les plus populaires de l’internet, comme les banques d’images et de vidéos.

« Hé, Make-A-Video, je veux que tu dessines un couple sous la pluie. »

Meta a réussi à développer un outil puissant. Cependant, pour que cette intelligence artificielle fonctionne, il faudrait utiliser des ordinateurs très puissants. Rappelez-vous que les IA capables de générer des images nécessitaient déjà beaucoup de ressources techniques ; maintenant, une IA capable de transformer du texte en vidéo en a besoin de beaucoup plus.

Pourquoi tant de puissance ? N’oublions pas que les vidéos ne sont rien d’autre qu’une série d’images assemblées, avec du son intégré. Maintenant, imaginez tout le temps qu’il faut à une IA pour générer une seule image, et multipliez-le par le nombre d’images dans une minute de vidéo (il peut y en avoir des milliers). Ajoutez à cela le fait que toutes ces images générées doivent être rassemblées dans un seul fichier. Pas de doute, c’est fou.

Selon Tanmay Gupta, chercheur en vision par ordinateur à l’Allen Institute for Artificial Intelligence, les résultats obtenus par l’IA Make-A-Video de Meta sont très prometteurs. En outre, elle démontre la capacité du modèle à capturer des objets en 3D, de nouveaux détails du sujet et de l’arrière-plan apparaissant au fur et à mesure que la caméra tourne. Il démontre également que l’IA est capable de différencier la profondeur et les sources de lumière.

Toutefois, M. Gupta ajoute que « la communauté des chercheurs a encore beaucoup de progrès à faire, surtout si ces systèmes doivent être utilisés pour le montage vidéo professionnel et la création de contenu. » Il ajoute que la technologie peine encore à générer des interactions entre les objets de la scène.

« Les recherches de Make-A-Video s’appuient sur les progrès récents de la technologie de génération de texte à image, conçue pour permettre la génération de texte à vidéo. Le système utilise des images accompagnées de descriptions pour apprendre à quoi ressemble le monde et comment il est habituellement décrit.

Il utilise également des vidéos non étiquetées pour apprendre comment le monde bouge. Grâce à ces données, Make-A-Video vous permet de donner vie à votre imagination en générant des vidéos fantaisistes et uniques avec seulement quelques mots ou lignes de texte. »

Méta

L’un des aspects les plus frappants de cette intelligence artificielle est sa capacité à créer sans avoir besoin de données textuelles et vidéo appariées. Jusqu’à présent, de nombreux générateurs d’images étaient basés sur des galeries de contenu, qui associaient déjà texte et vidéo. Make-A-Video, cependant, n’a pas besoin d’autant d’informations pour fonctionner, ce qui s’avère être un avantage significatif.

Cette IA peut être utilisée de diverses manières. Qu’il s’agisse de donner du mouvement à une simple image ou de remplir de mouvement une séquence d’images. En outre, il peut également créer des variantes de vidéos à partir d’un original. Le style que vous exigez, comme pour DALL-E ou Midjourney, dépend de votre imagination.