Basetenは、クラウドまたは自社環境での高速でスケーラブルな推論を提供するプラットフォームです。パフォーマンス、セキュリティ、信頼性が重要な場面で、開発者にとって魅力的な体験を提供します。Basetenを使用することで、企業は生産環境での推論スケーリングを迅速に市場に投入することができます。
Basetenは、高いモデルスループット(最大1,500トークン/秒)と最初のトークンまでの高速な時間(100ミリ秒以下)を実現します。開発プロセス全体を合理化し、Trussを使用して概念から展開までの時間と労力を大幅に削減します。
エンタープライズの準備が整っているBasetenは、高性能で安全かつ信頼性の高いモデル推論サービスを提供し、企業の重要な運用、法的、戦略的ニーズに合わせています。Basetenを使用することで、新しい機械学習プラットフォームをわずか4ヶ月で効率的に構築することができました。モデルインフラストラクチャの管理を心配する必要がないため、Laurelは新しい予測機能の開発時間を大幅に短縮し、以前のプラットフォームの2倍以上のモデルを維持することができました。
Basetenは、インタラクティブアプリケーション(チャットボット、仮想アシスタント、リアルタイム翻訳サービスなど)のためのミッションクリティカルな低遅延を実現します。認証とルーティングサービスにより、遅延を低減し、高スループット(最大1,500トークン/秒)を実現します。
Basetenのオートスケーラーは、モデルへの着信トラフィックを分析し、追加のレプリカを自動的に作成して、希望するサービスレベルを維持します。ゼロから数千のレプリカに水平スケーリングし、モデルの需要に対応します。
Basetenは、オープンソースのモデルパッケージング標準であるTrussを提供し、任意のフレームワーク(PyTorch、Tensorflow、TensorRT、Tritonなど)で構築されたモデルをパッケージ化し、ローカルまたは生産環境で展開するための標準を提供します。Basetenを使用すると、開発から生産への移行が簡素化され、カスタムまたはオープンソースのモデルを最小限のセットアップで展開することができます。
Basetenは、直感的なプラットフォームでモデルを効率的に管理し、最適なリソース割り当てとパフォーマンスを確保します。ログ管理とイベントフィルタリング機能により、問題を迅速に特定して解決し、モデルの信頼性を向上させます。詳細なコスト追跡と最適化の推奨事項により、インフラをコントロールします。包括的な可観測性ツールにより、システムがスムーズに動作していることを確認します。推論数、応答時間、GPU稼働時間などの重要なメトリクスをリアルタイムで追跡します。