Baseten: AI 모델 생산 배포를 위한 빠르고 확장 가능한 추론 플랫폼

Baseten은 AI 모델의 생산 배포를 위한 빠르고 확장 가능한 추론 플랫폼입니다. 이 플랫폼은 성능, 보안, 신뢰성이 중요한 경우를 위해 설계되었으며, 개발자 경험을 극대화합니다. Baseten은 고성능 모델 처리량(초당 최대 1,500 토큰)과 빠른 첫 토큰 시간(100ms 미만)을 제공하여 시장 출시 시간을 단축합니다.

개발자 워크플로우 측면에서 Baseten은 Truss를 통해 개발 프로세스를 간소화하여 개념에서 배포까지 필요한 시간과 노력을 크게 줄입니다. 또한, Baseten은 기업의 중요한 운영, 법적, 전략적 요구 사항에 부합하는 고성능, 안전하며 신뢰할 수 있는 모델 추론 서비스를 제공합니다.

Baseten은 최신 엔진을 사용하여 서버 수준에서의 추론 속도 향상을 가능하게 합니다. 이는 모델이 최적의 하드웨어에서 실행될 때 더 낮은 메모리 사용량을 가지도록 합니다. 또한, Baseten의 자동 확장 기능은 모델에 대한 수신 트래픽을 분석하여 원하는 서비스 수준을 유지하기 위해 추가 복제본을 자동으로 생성합니다.

Baseten은 PyTorch, Tensorflow, TensorRT, Triton 등 모든 프레임워크에서 구축된 모델을 패키징하기 위한 오픈 소스 표준인 Truss를 제공합니다. 이를 통해 개발자는 최소한의 설정으로 사용자 정의 또는 오픈 소스 모델을 생산 환경에 쉽게 배포할 수 있습니다.

Baseten은 또한 보안에 대한 강력한 약속을 가지고 있으며, 단일 테넌시를 제공하여 모델을 가상 및 물리적으로 격리합니다. 이는 자체 호스팅, 자체 클라우드에서 실행되거나 단일 테넌트 클라우드에서 실행되는 경우에도 적용됩니다.