Segment Anything : Un Modèle AI Innovant de Meta AI
Segment Anything est un modèle AI remarquable développé par Meta AI. Il est capable de « découper » n'importe quel objet, dans n'importe quelle image, en un seul clic. Ce système de segmentation est promptable et présente une généralisation à zéro-shot vers des objets et des images non familiers, sans nécessiter d'entraînement supplémentaire.
Le modèle utilise une variété de prompts d'entrée. Par exemple, des points interactifs et des boîtes peuvent être utilisés pour spécifier ce qui doit être segmenté dans une image, permettant ainsi une large gamme de tâches de segmentation sans besoin d'un entraînement additionnel. De plus, il peut segmenter automatiquement tout dans une image et générer plusieurs masques valides pour des prompts ambigus.
La conception promptable de SAM permet une intégration flexible avec d'autres systèmes. Par exemple, il peut prendre des prompts d'autres systèmes, tels que le regard d'un utilisateur provenant d'un casque AR/VR pour sélectionner un objet. Les masques de sortie peuvent également être utilisés comme entrées pour d'autres systèmes AI, ouvrant la voie à de nombreuses applications telles que le suivi d'objets dans des vidéos, l'édition d'images, la création d'images en 3D ou des tâches créatives telles que le collage.
SAM a appris une notion générale de ce que sont les objets, ce qui lui permet une généralisation à zéro-shot vers des objets et des images inconnus sans nécessiter d'un entraînement supplémentaire. Son moteur de données est basé sur l'entraînement sur des millions d'images et de masques, collectés via l'utilisation d'un « moteur de données » de modèle dans la boucle. Les chercheurs ont utilisé SAM et ses données pour annoter de manière interactive les images et mettre à jour le modèle, en répétant ce cycle de nombreuses fois pour améliorer à la fois le modèle et le jeu de données.
Le modèle est conçu pour être efficace, avec un encodeur d'image unique et un décodeur de masque léger qui peut fonctionner dans un navigateur web en quelques millisecondes par prompt.