مقدمة
تتسارع الأبحاث في نماذج الذكاء الاصطناعي التوليدية في الأشهر الأخيرة، مع تقدم معالجة اللغة الطبيعية التي تسمح للآلات بفهم اللغة والتعبير عنها، بالإضافة إلى الأنظمة التي يمكنها توليد الصور بناءً على مدخلات نصية. اليوم، نقدم لكم CM3leon (يُنطق مثل "حرباء")، وهو نموذج أساسي واحد يقوم بكل من توليد النص إلى الصورة والصورة إلى النص.
ميزات CM3leon
- نموذج متعدد الوسائط: CM3leon هو أول نموذج متعدد الوسائط تم تدريبه باستخدام وصفة معدلة من نماذج اللغة النصية فقط.
- أداء متفوق: يحقق CM3leon أداءً رائدًا في توليد النص إلى الصورة، رغم تدريبه باستخدام خمس مرات أقل من الحوسبة مقارنةً بالطرق السابقة.
- توليد تسلسلات نصية وصورية: يمكنه توليد تسلسلات من النصوص والصور بناءً على تسلسلات أخرى من المحتوى النصي والصوري.
كيفية عمل CM3leon
يستخدم CM3leon بنية تعتمد على المحولات، مما يمكّنه من معالجة مجموعة متنوعة من المهام. تم تحسين كفاءة النموذج من خلال التدريب المعزز بالاسترجاع، مما يحسن من فعالية النموذج الناتج.
أداء CM3leon عبر المهام
- توليد الصور الموجهة بالنص: يمكن لـ CM3leon توليد صور متماسكة تتبع التعليمات النصية بدقة.
- تحرير الصور الموجه بالنص: يمكن للنموذج تعديل الصور وفقًا للتعليمات النصية، مما يظهر مرونة كبيرة.
- مهام النص: يمكن لـ CM3leon توليد تسميات قصيرة أو طويلة والإجابة على الأسئلة حول الصور.
مقارنة مع نماذج أخرى
عند مقارنة الأداء على معيار توليد الصور الأكثر استخدامًا (MS-COCO)، حقق CM3leon درجة FID (مسافة فريشيت إنسيبشن) قدرها 4.88، مما يثبت أنه يتفوق على نموذج Google في توليد النص إلى الصورة.
الخاتمة
يمثل CM3leon خطوة نحو نماذج توليد عالية الجودة، مما يعزز الإبداع ويساعد في تطبيقات أفضل في الميتافيرس. نتطلع إلى استكشاف حدود نماذج اللغة متعددة الوسائط وإصدار المزيد من النماذج في المستقبل.
دعوة للعمل
إذا كنت مهتمًا بتجربة CM3leon، يمكنك زيارة موقعنا الرسمي لمعرفة المزيد حول كيفية استخدامه في مشاريعك الخاصة.