L’intelligence artificielle bat son plein dans la sphère du numérique, et une course contre la montre est lancée ! Dans cette catégorie, un nouveau projet se prépare pour Méta, qui lance son Intelligence artificielle génératrice d’images : Caméléon. Ce projet est en cours de développement, mais Marck Zuckerberg ne se gêne pas pour donner des bribes de ce système innovant avec un article de blog de la suite Meta ce 14 juillet 2023 (source : blog de AI Méta).
Les générateurs d’images permettent de créer des illustrations, vidéos ou photos à partir d’un texte descriptif. Il se base sur l’intelligence artificielle et sur le machine learning. Le machine learning est une forme d’intelligence artificielle qui est axée sur la création de systèmes qui apprennent, ou améliorent leurs performances, en fonction des données qu’ils traitent. Firefly, Dall-e2, Midjourney sont déjà des alternatives populaires sur le marché et ne cessent de nous épater.
Les contenus génératifs font déjà partie de notre quotidien depuis un bon moment maintenant, et tendent à se développer avec des fonctionnalités pointues et de plus en plus fluides. Parfois, ils sont tellement performants, que le contenu prête à confusion entre réalité et création numérique.
L’entreprise de Mark Zuckerberg dévoile ainsi CM3leon, qui serait bien plus performant que ses concurrents. Comment appréhender l’arrivée de Cm3leon sur le marché des générateurs d’images ? Je vais maintenant vous expliquer en détails le projet Cm3leon en prenant en compte ses fonctionnalités et ses différences avec ses principaux concurrents.
Le logiciel Caméléon de IA Meta, une approche unique de l’Intelligence artificielle génératrice d’images
Le modèle CM3leon (prononcé comme “caméléon”) se distingue par une stratégie innovante. Meta choisit d’opter pour une approche différente, il est plus efficace pour le texte et les images, en utilisant un modèle multimodal. Le modèle de langage multimodal est un type de modèle de langage capable de traiter et de générer du texte, de la parole, des images, des vidéos et d’autres formes d’informations.
La prouesse de Caméléon lancé par Méta est de générer à la fois du texte à partir d’une image et de produire une image à partir d’un texte. Mais surtout, il peut y ajouter des descriptifs et inversement des images à partir d’une image ou un texte définie. C’est une différence de taille quand on pense que d’autres IA génératives ne peuvent produire que des images, sans pouvoir y ajouter du texte accompagnant l’image générée.
En d’autres termes, en utilisant ce générateur, vous pouvez réaliser une double tâche. Vous effectuez votre prompt (un prompt est une consigne donnée à un système d’IA pour qu’il génère une réponse en conséquence), le générateur de Meta vous propose en échange une génération de texte et d’image en même temps. C’est ce qui le différencie nettement des IA génératives disponibles sur le marché. Il est pensé autrement, pour concurrencer au maximum ses rivaux tels que DALL-E 2 et MidJourney, qui sont cantonnés à la génération d’images simples.
Un caméléon multitâche, développé avec l’instruction adaptée qui le différencie de Firefly, Dall-e2, Midjourney
Avec l’utilisation de ce générateur 2.0, de nouvelles possibilités s’offrent à vous. Vous êtes en capacité de donner une tâche complexe, y compris la génération et l’édition d’images à partir du texte donné dans un prompt, fournir un texte à partir d’un screen, construire des légendes, Grâce à l’ajustement des instructions multitâches à grande échelle, CM3leon est capable d’effectuer une variété de tâches importante : la génération et l‘édition d’images guidées par le texte & la génération du texte à l’image.
Édition d’images guidées par le texte
Caméléon excelle dans sa fonction de multitâches, et est le générateur le plus pointu pour ce qui est de répondre en détail à votre requête. Son modèle multimodal lui permet une retranscription précise comparée à ses concurrents officiels qui n’ont pas la faculté d’être aussi cohérents et ne respectent pas toujours l’ensemble des instructions fournies.
Pour mieux comprendre ses avantages, un exemple pointilleux est proposé et mis en avant par Meta dans son article. Il met en avant La Jeune Fille à la perle, une peinture à l’huile sur toile réalisée par le peintre néerlandais Johannes Vermeer. Ce tableau est un standard artistique que Meta peut se permettre de transformer avec Caméleon. On retrouve ici une série d’images de cette peinture modifiée par l’exécution du générateur. Dans l’exemple, on demande de faire des changements concernant le tableau.
- La jeune fille est transformée avec un visage masculin à la barbe.
- On demande à Caméléon de lui ajouter des lunettes de soleil.
- On vieillit la jeune fille avec des traits d’une vieille femme de 100 ans.
- On applique du maquillage pour enfant sur son visage.
Autre exemple réalisé par Meta et qui fait appel à toute la technologie de cette IA : créer une image d’une qualité irréprochable avec un prompt précis. Ici, c’est l’instruction du prompt qui est adaptée, cela signifie que le modèle de génération est formé pour respecter les instructions fournies par le texte.
Meta met en avant ce développement avec les différentes images ci-dessous et avec un texte qui pourrait être : “Décris-moi un cactus portant un chapeau de paille et des lunettes de soleil fluo dans le désert du Sahara, “Illustre moi une photo en gros plan de la main humaine en haute qualité. Crée moi un raton laveur, personnage principal d’un film animé sur le thème de la guerre avec un sabre de samouraï”, “propose moi un panneau d’arrêt de style fantastique avec le texte « 1991 »”
La génération de tâches textuelles : l’instruction adaptée
Le modèle CM3leon est également habilité à générer des légendes courtes ou longues, mais aussi répondre à des questions concernant une image. Les sous-titres d’images et les réponses aux questions virtuelles ont été comparés avec ses concurrents directs. D’un point de vue des données, Caméléon dispose de 3 millions d’images libres de droit puisées dans la banque de données de Shutterstock, ce qui est moindre que face aux générateurs d’images actuelles certes, mais cela garanti pour le moment d’éviter les problèmes liés à la propriété et à l’attribution des images.
C’est la méthode de l’attention qui permet de donner des résultats plus cohérents et adaptés au contenu demandé.
Intelligence artificielle génératrice d’images fonctionne avec un modèle de langage multimodal unique et fait la différence
CM3leon est un pas en avant vers les progrès de l’IA générative. Le modèle multimodal utilisé rend son utilisation plus performante, c’est un modèle dit à “augmentation de recherches, qui lui permet d’activer des données plus pertinentes et d’une grande variété, malgré une utilisation de ses ressources de données moins importantes. L’intelligence artificielle de Meta n’est pas encore disponible, mais risque de faire parler d’elle. Nous n’avons pas non plus de notion de budget.
Meta dans la sphère de l‘a génération d’images par l’IA‘IA génératrices d’images : un bon timing ?
On ne va pas se mentir, l’idée de voir entrer Meta dans la conquête de génération artificielle n’étonne personne. En tant que social media manager, tout au long de ces derniers mois, je suis de près les avancées technologiques et des IA génératrices d’images, et il y a en beaucoup ! L’arrivée de Meta, c’est peut être finalement une IA en plus sur le tableau de la compétitivité technologique.
On note trois grands éléments qui en font IA alternative à ses concurrents. Il est moins gourmand en termes de ressources mais il reste aussi performant que les autres IA génératrices d’images comme Midjourney ou même Stable Diffusion. Le fait qu’il puisse créer des textes ou légendes à partir d’une image est une vraie différence avec ses rivaux. Enfin, le fait qu’il soit lié à Shutterstock ajoute une plus-value à son utilisation, où l’on y compte déjà 3 millions d’images libres de droits disponibles avec cette application.
L’IA générative d’images, une source de créativité à nuancer
Pour le moment, je reste sur mes gardes concernant cette info. Dans un premier temps, car ce ne sont que des informations tirées d’un unique article, personne n’a pu encore tester cette IA. Nous n’avons que les détails techniques que le patron de Facebook veut bien nous communiquer. Concernant l’intelligence artificielle, elle a déjà prouvé ses limites, et il ne faut pas oublier que le travail d’un ordinateur reste un robot qui ne sait que lire des codes, des 0 & 1 !
Concernant les nouvelles technologies, elles sont utiles pour la facilité d’utilisation, mais seul le regard et la créativité de celui qui l’utilise importe pour obtenir un résultat satisfaisant. De mon côté, au quotidien, les IA m’épaulent, me font gagner du temps pour être au plus proche de mes clients et maintenir ma polyvalence. Mais je préfère utiliser ces logiciels à bon escient, avec parcimonie : c’est ma créativité et ma manière d’utiliser ces outils qui m’apportent une réelle plus-value dans la gestion des réseaux de mes clients.