斯坦福“羊驼”模型秒杀GPT-3.5 仅需百美元

19次阅读

共计 1031 个字符,预计需要花费 3 分钟才能阅读完成。

近日,AI 界再次迎来震撼消息:斯坦福大学推出了名为 Alpaca(羊驼,网友称之为“草泥马”)的开源大模型,令人惊讶的是,这个模型只花费不到 100 美元的成本,就可以用 OpenAI 的 API 对 Meta 的 70 亿参数 LLaMA 模型进行微调,最终产出效果堪比参数高达 1750 亿的 GPT-3.5(text-davinci-003)。

更令人激动的是,这个模型不但成本低廉,而且可以在单个 GPU 甚至是普通的手机、树莓派上运行,这极大地推动了 AI 的普及与大众化。斯坦福团队在开发过程中,花了不到 500 美元用 OpenAI API 生成了庞大的训练数据集,同时将所有代码和数据都开源,从而让任何人都能轻松微调和部署这样强大的 AI 模型。

模型表现:实测证明不输“大神”GPT-3.5

在官方展示中,他们对 Alpaca 进行了多项测试,比如提问“什么是羊驼?它和美洲驼有何不同?”回答简明扼要,完整而准确,仅用简短的描述就清楚表达了信息。而如果用 ChatGPT(GPT-3.5)问同样的问题,答案则会更为详细复杂。团队解释说:Alpaca 偏向简洁,是基于训练设置优化出来的结果。

除了回答问题,Alpaca 还能完成写邮件、生成论文摘要、写代码等多种任务。例如,团队让其撰写一封祝贺新生的电子邮件,模型快速给出一份正式的模板,看起来十分专业。同时,他们还要求 Alpaca 写出机器学习论文的摘要,内容涵盖问题定义、方法、结果与展望,内容合理,符合学术风格。

当然,网友们也纷纷试手,发现 Alpaca 写代码、生成内容都很拿手,但确实存在一些缺陷。例如它对地理事实有时会出错,比如“坦桑尼亚的首都”回答为“达累斯萨拉姆”,然而,该国早已更换首都为多多马(Dodoma)。

运行便携:PC、手机、树莓派都能搞定

这款模型最大的亮点在于它的高可用性。不仅如此,基于 Meta 开源的 LLaMA 模型,任何人几乎都能在本地运行。比如使用 GitHub 上提供的 llama.cpp 项目,纯 C ++ 实现,可以在 MacBook M1 芯片的笔记本上跑,还支持 Windows 和 Linux 平台。甚至有人在只剩 4GB 内存的树莓派 4 上成功运行了 70 亿参数版本,虽然速度慢一些,大约 10 秒才能生成一个词(Token)。

更奇特的是,仅用两天时间,AI 研究者们就通过量化对模型进行优化,将模型压缩后,甚至能在 Google Pixel 6 的手机上运行,生成速度大约 26 秒一个 Token。这意味着,未来即使没有强大 GPU,普通手机或低配设备,也能享受 AI 带来的便利。

正文完
 0