Meta开源的ChatGPT平替到底好不好用？测试结果、加料改装方法已出炉，2天5.2k星

chatgpt 的持续爆火，早已让各大科技公司坐不住了。
就在刚刚过去的一周，meta「开源」了一个新的大模型系列 ——llama（large language model meta ai），参数量从 70 亿到 650 亿不等。因为 llama 比之前发布的很多大模型参数更少，但性能更好，所以一经发布让很多研究者兴奋不已。
例如，130 亿参数的 llama 模型「在大多数基准上」可以胜过参数量达 1750 亿的 gpt-3，而且可以在单块 v100 gpu 上运行；而最大的 650 亿参数的 llama 模型可以媲美谷歌的 chinchilla-70b 和 palm-540b。
参数量的减少对于普通研究者和商业机构来说都是好事，但 llama 真的像论文中说得那样表现那么好吗？和当前的 chatgpt 相比，llama 是否可以勉强一战？为了解答这些疑问，有些研究者已经对这一模型进行了测试。
还有公司已经在尝试补齐 llama 短板，想看能不能通过添加 rlhf 等训练方法让 llama 表现更好。
llama 初步评测这份评测结果来自一位名叫 @enryu 的 medium 作者。它比较了 llama 和 chatgpt 在解释笑话、零样本分类和代码生成三个颇具挑战性的任务中的效果。相关博客文章为《mini-post: first look at llama》。
作者在 rtx 3090/rtx 4090 上运行 llama 7b/13b 版本，在单个 a100 上运行 33b 版本。
需要注意的是，与 chatgpt 不同，其他模型并不是基于指令微调，因此 prompt 的结构有所不同。
解释笑话
这是谷歌原始 palm 论文中展示的一个用例：给出一个笑话，让模型来解释它为什么好笑。该任务需要将世界知识和一些基本逻辑相结合。palm 之前的所有模型都无法做到这一点。作者从 palm 论文中提取了一些示例，比较了 llama-7b、llama-13b、llama-33b 与 chatgpt 的表现。
可以看到，结果很糟糕。这些模型 get 到了一些笑点，但无法真正理解，它们只是随机生成一些相关的文本流。chatgpt 虽与 llama-33b 一样表现很差（其他几个模型更差），但它遵循了不一样的策略：生成了一大堆文本，希望自己的回答至少有一部分是正确的（但大部分显然不是），是不是很像大家考试时应对问答题的策略？
不过，chatgpt 起码 get 到了关于 schmidthuber 的笑话。但总的来说，这些模型在零样本笑话解释任务上的效果与 palm 相差甚远（除非 palm 的示例是精心挑选）。
零样本分类
作者考虑的第二项任务更具挑战性 —— 标题党（clickbait）分类。由于连人类也无法就什么是标题党达成一致，作者在 prompt 中为这些模型提供了一些示例（因此实际上是小样本而非零样本）。如下为 llama 的 prompt：
i will tell whether the following news titles are clickbait: 1) the worst care homes in england: interactive map reveals the lowest-rated 2,530 residences - so is there one near you? clickbait: yes 2) netflix's top 10 most-watched movies of all time clickbait: yes 3) peering through the fog of inflation clickbait: no 4) you’ll never believe which tv cook this cheeky chap grew up to be clickbait: yes
下图为 llama-7b、llama-13b、llama-33b 与 chatgpt 的更多示例结果。
很明显，赢家为 llama-33b，它是唯一一个能够遵循所有请求格式（yes/no）的模型，并且预测合理。chatgpt 也还可以，但有些预测不太合理，格式也有错误。较小的模型（7b/13b）不适用于该任务。
代码生成
虽然 llm 擅长人文学科，但在 stem 学科上表现糟糕。llama 虽然有基准测试结果，但作者在代码生成领域尝试了一些特别的东西，即将人类语言零样本地转换为 sql 查询。这并不是很实用，在现实生活中直接编写查询会更有效率。这里只作为代码生成任务的一个示例。
在 prompt 中，作者提供表模式（table schema）以及想要实现的目标，要求模型给出 sql 查询。如下为一些随机示例，老实说，chatgpt 看起来效果更好。
-- we have a table `events` with columns `event_id`, `timestamp`, `user_id`, `rpc_method`. -- we want to count how many users issued request login over the last week. -- sql query for this is: -- 7b select count (*) from events where user_id in (select user_id from events where timestamp >= now () - interval 7 day) and rpc_method = 'login'; -- 13b select count (*) from events where rpc_method = login and unix_timestamp (timestamp) >= unix_timestamp (current_date - interval 7 day) -- 33b select user_id, count (distinct user_id) as total from events where timestamp between timestamp '2013-08-14 00:00:00' and timestamp '2013-08-21 00:00:00' and rpc_method = 'login' group by user_id -- chatgpt select count (distinct user_id) from events where rpc_method = 'login' and timestamp >= date_sub (now (), interval 1 week);
从测试结果来看，llama 在一些任务上表现还不错，但在另一些任务上和 chatgpt 还有一些差距。如果能像 chatgpt 一样加入一些「训练秘籍」，效果会不会大幅提升？
加入 rlhf，初创公司 nebuly ai 开源 chatllama 训练方法虽然 llama 发布之初就得到众多研究者的青睐，但是少了 rlhf 的加持，从上述评测结果来看，还是差点意思。
在 llama 发布三天后，初创公司 nebuly ai 开源了 rlhf 版 llama（chatllama）的训练方法。它的训练过程类似 chatgpt，该项目允许基于预训练的 llama 模型构建 chatgpt 形式的服务。项目上线刚刚 2 天，狂揽 5.2k 星。
项目地址：https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama
chatllama 训练过程算法实现主打比 chatgpt 训练更快、更便宜，我们可以从以下四点得到验证：
chatllama 是一个完整的开源实现，允许用户基于预训练的 llama 模型构建 chatgpt 风格的服务；与 chatgpt 相比，llama 架构更小，但训练过程和单 gpu 推理速度更快，成本更低；chatllama 内置了对 deepspeed zero 的支持，以加速微调过程；该库还支持所有的 llama 模型架构（7b、13b、33b、65b），因此用户可以根据训练时间和推理性能偏好对模型进行微调。
图源：https://openai.com/blog/chatgpt
更是有研究者表示，chatllama 比 chatgpt 训练速度最高快 15 倍。
不过有人对这一说法提出质疑，认为该项目没有给出准确的衡量标准。
项目刚刚上线 2 天，还处于早期阶段，用户可以通过以下添加项进一步扩展：
带有微调权重的 checkpoint；用于快速推理的优化技术；支持将模型打包到有效的部署框架中。nebuly ai 希望更多人加入进来，创造更高效和开放的 chatgpt 类助手。
该如何使用呢？首先是使用 pip 安装软件包：
pip install chatllama-py
然后是克隆 llama 模型：
git clone https://github.com/facebookresearch/llama.gitcd llama pip install -r requirements.txt pip install -e .
一切准备就绪后，就可以运行了，项目中介绍了 chatllama 7b 的训练示例，感兴趣的小伙伴可以查看原项目。
以上就是meta开源的chatgpt平替到底好不好用？测试结果、加料改装方法已出炉，2天5.2k星的详细内容。

Meta开源的ChatGPT平替到底好不好用？测试结果、加料改装方法已出炉，2天5.2k星

推荐信息