Vicuna: Um Chatbot de Código Aberto Impressionando o GPT-4 com 90%* de Qualidade do ChatGPT
Introdução
O Vicuna-13B é um chatbot de código aberto que foi treinado através do ajuste fino do modelo LLaMA com conversas compartilhadas por usuários coletadas do ShareGPT. Avaliações preliminares utilizando o GPT-4 como juiz mostram que o Vicuna-13B alcança mais de 90%* da qualidade do OpenAI ChatGPT e Google Bard, superando outros modelos como LLaMA e Stanford Alpaca em mais de 90% dos casos. O custo de treinamento do Vicuna-13B é de aproximadamente $300.
Como o Vicuna se Destaca?
Após o ajuste fino com 70 mil conversas compartilhadas do ChatGPT, o Vicuna demonstrou ser capaz de gerar respostas mais detalhadas e bem estruturadas em comparação ao Alpaca. No entanto, avaliar chatbots é uma tarefa complexa. Com os avanços recentes do GPT-4, estamos curiosos se suas capacidades atingiram um nível humano que poderia permitir uma estrutura de avaliação automatizada para geração de benchmarks e avaliações de desempenho.
Avaliação Preliminar
As avaliações preliminares, resumidas na Figura 1, mostram que o Vicuna alcança 90%* da capacidade do Bard/ChatGPT. Embora essa estrutura proposta mostre potencial para automatizar a avaliação de chatbots, ainda não é uma abordagem rigorosa. Construir um sistema de avaliação para chatbots continua sendo uma questão em aberto que requer mais pesquisa.
Visão Geral do Vicuna-13B
O rápido avanço dos modelos de linguagem de grande escala (LLMs) revolucionou os sistemas de chatbot, resultando em níveis sem precedentes de inteligência. Inspirados pelo projeto Meta LLaMA e Stanford Alpaca, introduzimos o Vicuna-13B, um chatbot de código aberto respaldado por um conjunto de dados aprimorado e uma infraestrutura escalável e fácil de usar.
Coleta de Dados e Treinamento
Coletamos cerca de 70 mil conversas do ShareGPT.com e aprimoramos os scripts de treinamento para lidar melhor com conversas de múltiplas interações. O treinamento foi realizado com PyTorch FSDP em 8 GPUs A100 em um único dia. Para servir a demonstração, implementamos um sistema de serviço distribuído leve.
Comparação com Outros Modelos
A Tabela 1 abaixo mostra uma comparação entre vários modelos notáveis:
Nome do Modelo | LLaMA | Alpaca | Vicuna | Bard/ChatGPT |
---|---|---|---|---|
Conjunto de Dados | Conjuntos de dados disponíveis publicamente (1T token) | Auto-instrução da API davinci-003 (52K amostras) | Conversas compartilhadas por usuários (70K amostras) | N/A |
Custo de Treinamento (13B) | 135K GPU-horas | N/A | $300 (treinamento) | N/A |
Como Avaliar um Chatbot?
Avaliar chatbots de IA é uma tarefa desafiadora, pois requer examinar a compreensão da linguagem, raciocínio e consciência de contexto. Propomos uma estrutura de avaliação baseada no GPT-4 para automatizar a avaliação de desempenho de chatbots. Selecionamos dez perguntas por categoria e coletamos respostas de cinco chatbots: LLaMA, Alpaca, ChatGPT, Bard e Vicuna.
Limitações do Vicuna
Assim como outros modelos de linguagem de grande escala, o Vicuna possui certas limitações. Ele não é bom em tarefas que envolvem raciocínio ou matemática e pode ter dificuldades em garantir a precisão factual de suas saídas. Para abordar preocupações de segurança, utilizamos a API de moderação da OpenAI para filtrar entradas de usuários inadequadas em nossa demonstração online.
Conclusão
O Vicuna representa um ponto de partida aberto para futuras pesquisas que visam abordar essas limitações. Convidamos a comunidade a interagir com nossa demonstração online para testar as capacidades deste chatbot. Para mais informações, acesse nosso repositório no GitHub: .
Chamada à Ação
Experimente a demonstração do Vicuna-13B e descubra como ele pode transformar suas interações com chatbots!