CM3leon: 텍스트와 이미지를 위한 최첨단 생성 모델 소개

CM3leon은 텍스트와 이미지 생성을 위한 최첨단 생성 모델로, 최근 몇 달 동안 자연어 처리와 텍스트 입력을 기반으로 이미지를 생성하는 시스템의 발전으로 인해 생성 AI 모델에 대한 관심과 연구가 가속화되고 있습니다. CM3leon은 텍스트-이미지 및 이미지-텍스트 생성을 모두 수행할 수 있는 단일 기반 모델입니다. 이 모델은 텍스트 전용 언어 모델에서 적응된 레시피를 사용하여 대규모 검색 강화 사전 학습 단계와 다중 작업 지도 미세 조정(SFT) 단계를 포함한 훈련을 거쳤습니다. 이 레시피는 간단하면서도 강력한 모델을 생산하며, 토크나이저 기반 트랜스포머가 기존의 생성 확산 기반 모델만큼 효율적으로 훈련될 수 있음을 보여줍니다. CM3leon은 이전의 트랜스포머 기반 방법보다 5배 적은 컴퓨팅 자원으로 훈련되었음에도 불구하고 텍스트-이미지 생성에서 최첨단 성능을 달성했습니다. CM3leon은 자동회귀 모델의 다재다능함과 효과성을 유지하면서도 낮은 훈련 비용과 추론 효율성을 유지합니다. 이 모델은 임의의 이미지 및 텍스트 콘텐츠 시퀀스에 조건부로 텍스트와 이미지 시퀀스를 생성할 수 있는 인과적 마스크 혼합 모달(CM3) 모델입니다. 이는 이전 모델의 기능을 크게 확장시켜, 텍스트-이미지 또는 이미지-텍스트 중 하나만 가능했던 모델의 한계를 극복했습니다. CM3leon은 이미지와 텍스트 생성을 위한 대규모 다중 작업 지도 미세 조정을 적용하여 이미지 캡션 생성, 시각적 질문 응답, 텍스트 기반 편집, 조건부 이미지 생성과 같은 작업에서 성능을 크게 향상시켰습니다. 이는 텍스트 전용 모델을 위해 개발된 스케일링 레시피가 토큰화 기반 이미지 생성 모델로 직접 일반화될 수 있음을 보여주는 또 다른 강력한 예입니다. CM3leon은 가장 널리 사용되는 이미지 생성 벤치마크(제로샷 MS-COCO)에서 FID(Fréchet Inception Distance) 점수 4.88을 달성하여 텍스트-이미지 생성에서 새로운 최첨단 기술을 확립하고 Google의 텍스트-이미지 모델인 Parti를 능가했습니다. 이 성과는 검색 강화의 잠재력을 강조하고 자동회귀 모델의 성능에 대한 스케일링 전략의 영향을 강조합니다. CM3leon은 또한 선글라스와 모자를 쓴 화분에 심긴 선인장과 같은 복잡한 구성 객체를 생성하는 인상적인 능력을 보여줍니다. CM3leon은 시각적 질문 응답 및 장문 캡션을 포함한 다양한 비전-언어 작업에서도 뛰어난 성능을 발휘합니다. 30억 개의 텍스트 토큰으로 구성된 데이터셋으로 훈련되었음에도 불구하고, CM3leon의 제로샷 성능은 더 광범위한 데이터셋으로 훈련된 더 큰 모델과 비교해도 유리합니다. CM3leon의 기능을 통해 이미지 생성 도구는 입력 프롬프트를 더 잘 따르는 더 일관된 이미지를 생성할 수 있습니다. 예를 들어, 많은 이미지 생성 모델은 전역 형태와 지역 세부 사항을 복구하는 능력에 어려움을 겪습니다. CM3leon은 이 영역에서 강력한 성능을 발휘합니다. CM3leon은 단일 모델로 다양한 작업을 수행할 수 있습니다: 텍스트 가이드 이미지 생성 및 편집, 텍스트-이미지, 텍스트 가이드 이미지 편집, 텍스트 작업, 구조 가이드 이미지 편집, 객체-이미지, 세그멘테이션-이미지, 초해상도 결과. CM3leon의 아키텍처는 잘 확립된 텍스트 기반 모델과 유사한 디코더 전용 트랜스포머를 사용합니다. 그러나 CM3leon을 차별화하는 것은 텍스트와 이미지를 모두 입력하고 생성할 수 있는 능력입니다. 이는 CM3leon이 위에서 공유한 다양한 작업을 성공적으로 처리할 수 있게 합니다. CM3leon의 훈련은 최근 작업을 따라 검색 강화되었으며, 결과 모델의 효율성과 제어 가능성을 크게 향상시켰습니다. 마지막으로, 위에서 설명한 대로 다양한 이미지 및 텍스트 생성 작업에 대한 지도 미세 조정을 수행했습니다. AI 산업이 계속 발전함에 따라 CM3leon과 같은 생성 모델은 점점 더 정교해지고 있습니다. 이러한 모델은 수백만 개의 예시 이미지를 훈련함으로써 시각과 텍스트 사이의 관계를 학습하지만, 훈련 데이터에 존재하는 편향도 반영할 수 있습니다. 산업이 이러한 도전을 이해하고 해결하는 초기 단계에 있지만, 우리는 투명성이 진전을 가속화하는 데 핵심이 될 것이라고 믿습니다. 따라서, 우리는 CM3leon을 라이선스된 데이터셋을 사용하여 훈련시켰습니다. 이는 이전 모델들이 사용한 것과 매우 다른 데이터 분포로도 강력한 성능을 달성할 수 있음을 보여줍니다. 우리의 작업을 투명하게 공개함으로써, 생성 AI 분야에서의 협력과 혁신을 장려하고자 합니다. 우리는 함께 일함으로써 더 정확할 뿐만 아니라 모두에게 더 공정하고 공평한 모델을 만들 수 있다고 믿습니다. 고품질 생성 모델을 만들기 위한 목표로, CM3leon의 다양한 작업에서의 강력한 성능은 더 높은 충실도의 이미지 생성과 이해를 위한 한 걸음이라고 믿습니다. CM3leon과 같은 모델은 궁극적으로 메타버스에서의 창의성과 더 나은 응용 프로그램을 촉진하는 데 도움이 될 수 있습니다. 우리는 다중 모달 언어 모델의 경계를 탐구하고 앞으로 더 많은 모델을 출시할 것을 기대합니다.

CM3leon

CM3leon은 텍스트와 이미지 생성을 위한 최첨단 생성 모델로, 효율성과 다재다능함을 자랑합니다. 이 모델은 다양한 비전-언어 작업에서 뛰어난 성능을 발휘하며, 이미지 생성 도구의 기능을 크게 확장시킵니다.

CM3leon의 대체 도구

InfraNodus

TopicMojo

Wordware

Human or AI Game

The Full Stack

techtrust.ai

Regex.ai

Creators' AI

GOODY

screenpipe

Melon

ApX Machine Learning

에일리스

Intuition Machines

Calypso

GPTs Finder

BeanBook

Prefind

Boba

Wiseone

Project Knowledge Exploration

추천 AI 도구

Sitechecker

BookNote.ΑΙ

Jina AI

TavonnAI

Synthesio

Consensus

BooksAI

JFrog ML