Vicuna : Un Chatbot Open-Source Impressionnant avec 90%* de Qualité ChatGPT
Introduction
Vicuna-13B est un chatbot open-source qui a été formé en affinant LLaMA sur des conversations partagées par les utilisateurs, collectées à partir de ShareGPT. Une évaluation préliminaire utilisant GPT-4 comme juge montre que Vicuna-13B atteint plus de 90%* de la qualité de ChatGPT d'OpenAI et de Google Bard, tout en surpassant d'autres modèles comme LLaMA et Stanford Alpaca dans plus de 90% des cas.
Caractéristiques Principales
- Performance : Vicuna-13B génère des réponses détaillées et bien structurées, rivalisant avec ChatGPT.
- Coût de Formation : Environ 300 $ pour former Vicuna-13B.
- Accès Public : Le code et les poids sont disponibles pour un usage non commercial.
Comment Vicuna se Compare-t-il ?
Évaluation Préliminaire
Une évaluation préliminaire a été réalisée avec 80 questions diverses, où GPT-4 a jugé les réponses des modèles. Les résultats montrent que Vicuna obtient 92% du score total de ChatGPT, avec des performances compétitives contre les modèles propriétaires.
Comparaison des Modèles
Nom du Modèle | Score Baseline | Score Vicuna |
---|---|---|
LLaMA-13B | 513.0 | 694.0 |
Alpaca-13B | 583.0 | 704.0 |
Bard | 664.0 | 655.5 |
ChatGPT | 693.0 | 638.0 |
Comment Évaluer un Chatbot ?
Évaluer les chatbots AI est un défi, nécessitant l'examen de la compréhension du langage, du raisonnement et de la conscience contextuelle. Nous proposons un cadre d'évaluation basé sur GPT-4 pour automatiser l'évaluation des performances des chatbots.
Limitations
Vicuna présente certaines limitations, notamment dans les tâches de raisonnement ou de mathématiques, et peut avoir des difficultés à garantir l'exactitude factuelle de ses réponses.
Conclusion
Vicuna représente un point de départ prometteur pour la recherche future sur les chatbots. Nous vous invitons à essayer la démo en ligne et à explorer les capacités de ce chatbot.
Appel à l'Action
Pour en savoir plus sur Vicuna et tester ses capacités, visitez notre démonstration en ligne.