Vicuna:开源聊天机器人的卓越表现
Vicuna-13B 是一款通过在用户从 ShareGPT 收集的对话上微调 LLaMA 训练而成的开源聊天机器人。初步评估显示,以 GPT-4 作为评判标准,Vicuna-13B 达到了超过 90%*的 OpenAI ChatGPT 和 Google Bard 的质量,且在超过 90%*的情况下优于其他模型,如 LLaMA 和 Stanford Alpaca。训练 Vicuna-13B 的成本约为 300 美元,其代码、权重以及在线演示可供非商业用途使用。
在对 Vicuna 进行了 70K 用户共享的 ChatGPT 对话的微调后,我们发现它能够生成比 Alpaca 更详细和结构良好的答案,质量与 ChatGPT 相当。然而,评估聊天机器人并非易事。随着 GPT-4 的最新进展,我们好奇其能力是否已达到人类水平,从而能够为基准生成和性能评估实现自动化评估框架。我们的初步发现表明,GPT-4 在比较聊天机器人的答案时可以产生高度一致的排名和详细评估。
为了开始训练,我们从 ShareGPT.com 收集了大约 70K 的对话,并增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练使用 PyTorch FSDP 在 8 个 A100 GPU 上进行,仅需一天。对于演示服务,我们实施了一个轻量级的分布式服务系统。
评估 AI 聊天机器人是一项具有挑战性的任务,因为它需要检查语言理解、推理和上下文意识。当前的开放基准可能不再足够,因为 AI 聊天机器人变得越来越先进。为了解决这些问题,我们提出了一个基于 GPT-4 的评估框架来自动化聊天机器人性能评估。
尽管这个评估框架显示了评估聊天机器人的潜力,但它并不是一个严格或成熟的方法,因为大型语言模型容易产生幻觉。开发一个全面、标准化的聊天机器人评估系统仍然是一个需要进一步研究的开放问题。