Image In Words est un modèle génératif conçu pour les scénarios nécessitant la génération de textes ultra-détaillés à partir d'images. Il est particulièrement adapté aux tâches de reconnaissance des assistants de modèles de langage de grande taille (LLM) et pour exploiter les capacités de reconnaissance et de description de l'IA dans des scénarios plus complexes utilisant gpt4o. Il ne supporte que l'anglais et a été formé en utilisant environ 100 000 heures de données en anglais. Image In Words a démontré une qualité et une naturalité élevées dans divers tests.
Les caractéristiques d'Image In Words incluent la description d'image ultra-détaillée, l'amélioration significative des performances du modèle, la réduction du contenu fictif, la lisibilité et la complétude, les capacités améliorées de raisonnement visuel-langage, et des applications larges. Le cadre IIW a excellé dans de multiples applications pratiques, y compris l'amélioration de l'accessibilité pour les utilisateurs malvoyants, l'amélioration des fonctionnalités de recherche d'images, et la révision de contenu plus précise, montrant son vaste potentiel à travers différents domaines.
Les données enrichies de l'ensemble de données IIW-Benchmark Eval, les descriptions écrites par des humains par IIW (annotations au niveau de l'image et de l'objet), les comparaisons avec les travaux précédents (DCI, DOCCI), et les ensembles de données générés par machine LocNar et XM3600 ont été publiés en open source. Les ensembles de données sont publiés sous la licence CC-BY-4.0 et peuvent être trouvés sur GitHub et téléchargés depuis Hugging Face au format 'jsonl'.