Vicuna: オープンソースのチャットボットがGPT-4に90%の品質を実現
概要
Vicuna-13Bは、ユーザーが共有した会話を基にLLaMAをファインチューニングして訓練されたオープンソースのチャットボットです。GPT-4を評価者として使用した初期評価では、Vicuna-13BはOpenAIのChatGPTやGoogle Bardの90%以上の品質を達成し、LLaMAやStanford Alpacaなどの他のモデルを90%以上のケースで上回っています。訓練コストは約300ドルです。コードと重みは、非商業利用のために公開されています。
Vicunaの性能
Vicunaは、70Kのユーザー共有のChatGPT会話でファインチューニングされた結果、Alpacaと比較してより詳細で構造化された回答を生成する能力を持つことが分かりました。しかし、チャットボットの評価は簡単な作業ではありません。GPT-4の最近の進展により、その能力が人間のようなレベルに達したかどうかが気になります。初期の調査結果は、GPT-4がチャットボットの回答を比較する際に非常に一貫したランクと詳細な評価を生成できることを示しています。
評価フレームワーク
Vicunaの評価は、GPT-4を基にした自動化されたチャットボット性能評価フレームワークを提案しています。8つの質問カテゴリ(フェルミ問題、ロールプレイシナリオ、コーディング/数学タスクなど)を用いて、チャットボットの性能をテストします。GPT-4は、回答の有用性、関連性、正確性、詳細に基づいて各モデルの回答を評価します。
モデルの比較
以下の表は、LLaMA、Alpaca、ChatGPT、Vicunaの比較を示しています。
モデル名 | データセット | 訓練コスト | 評価メトリック |
---|---|---|---|
LLaMA | 公開データセット | 82K GPU時間 | 学術的ベンチマーク |
Alpaca | 自己指示データ | 500ドル | 著者評価 |
Vicuna | ユーザー共有会話 | 300ドル | GPT-4評価 |
ChatGPT | N/A | N/A | N/A |
使用方法
Vicuna-13Bのデモを試すには、こちらをクリックしてください。
制限事項
Vicunaは、他の大規模言語モデルと同様に、推論や数学に関するタスクに苦労することがあります。また、出力の事実確認や自己認識の精度に限界があります。安全性や偏見の軽減を保証するために、OpenAIのモデレーションAPIを使用して不適切なユーザー入力をフィルタリングしています。
結論
Vicunaは、将来の研究の出発点としてオープンなプラットフォームを提供します。最新情報は、GitHubでコードを確認し、DiscordサーバーやTwitterをフォローしてください。