您好,欢迎访问一九零五行业门户网

Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星

chatgpt 的持续爆火,早已让各大科技公司坐不住了。
就在刚刚过去的一周,meta「开源」了一个新的大模型系列 ——​​llama​​​(large language model meta ai),参数量从 70 亿到 650 亿不等。因为 llama 比之前发布的很多大模型参数更少,但性能更好,所以一经发布让很多研究者兴奋不已。
例如,130 亿参数的 llama 模型「在大多数基准上」可以胜过参数量达 1750 亿的 gpt-3,而且可以在单块 v100 gpu 上运行;而最大的 650 亿参数的 llama 模型可以媲美谷歌的 chinchilla-70b 和 palm-540b。
参数量的减少对于普通研究者和商业机构来说都是好事,但 llama 真的像论文中说得那样表现那么好吗?和当前的 chatgpt 相比,llama 是否可以勉强一战?为了解答这些疑问,有些研究者已经对这一模型进行了测试。
还有公司已经在尝试补齐 llama 短板,想看能不能通过添加 rlhf 等训练方法让 llama 表现更好。
llama 初步评测这份评测结果来自一位名叫 @enryu 的 medium 作者。它比较了 llama 和 chatgpt 在解释笑话、零样本分类和代码生成三个颇具挑战性的任务中的效果。相关博客文章为《mini-post: first look at llama》。
作者在 rtx 3090/rtx 4090 上运行 llama 7b/13b 版本,在单个 a100 上运行 33b 版本。
需要注意的是,与 chatgpt 不同,其他模型并不是基于指令微调,因此 prompt 的结构有所不同。
解释笑话
这是谷歌原始 palm 论文中展示的一个用例:给出一个笑话,让模型来解释它为什么好笑。该任务需要将世界知识和一些基本逻辑相结合。palm 之前的所有模型都无法做到这一点。作者从 palm 论文中提取了一些示例,比较了 llama-7b、llama-13b、llama-33b 与 chatgpt 的表现。
可以看到,结果很糟糕。这些模型 get 到了一些笑点,但无法真正理解,它们只是随机生成一些相关的文本流。chatgpt 虽与 llama-33b 一样表现很差(其他几个模型更差),但它遵循了不一样的策略:生成了一大堆文本,希望自己的回答至少有一部分是正确的(但大部分显然不是),是不是很像大家考试时应对问答题的策略?
不过,chatgpt 起码 get 到了关于 schmidthuber 的笑话。但总的来说,这些模型在零样本笑话解释任务上的效果与 palm 相差甚远(除非 palm 的示例是精心挑选)。
零样本分类
作者考虑的第二项任务更具挑战性 —— 标题党(clickbait)分类。由于连人类也无法就什么是标题党达成一致,作者在 prompt 中为这些模型提供了一些示例(因此实际上是小样本而非零样本)。如下为 llama 的 prompt:
i will tell whether the following news titles are clickbait: 1) the worst care homes in england: interactive map reveals the lowest-rated 2,530 residences - so is there one near you? clickbait: yes 2) netflix's top 10 most-watched movies of all time clickbait: yes 3) peering through the fog of inflation clickbait: no 4) you’ll never believe which tv cook this cheeky chap grew up to be clickbait: yes
下图为 llama-7b、llama-13b、llama-33b 与 chatgpt 的更多示例结果。
很明显,赢家为 llama-33b,它是唯一一个能够遵循所有请求格式(yes/no)的模型,并且预测合理。chatgpt 也还可以,但有些预测不太合理,格式也有错误。较小的模型(7b/13b)不适用于该任务。
代码生成
虽然 llm 擅长人文学科,但在 stem 学科上表现糟糕。llama 虽然有基准测试结果,但作者在代码生成领域尝试了一些特别的东西,即将人类语言零样本地转换为 sql 查询。这并不是很实用,在现实生活中直接编写查询会更有效率。这里只作为代码生成任务的一个示例。
在 prompt 中,作者提供表模式(table schema)以及想要实现的目标,要求模型给出 sql 查询。如下为一些随机示例,老实说,chatgpt 看起来效果更好。
-- we have a table `events` with columns `event_id`, `timestamp`, `user_id`, `rpc_method`. -- we want to count how many users issued request login over the last week. -- sql query for this is: -- 7b select count (*) from events where user_id in (select user_id from events where timestamp >= now () - interval 7 day) and rpc_method = 'login'; -- 13b select count (*) from events where rpc_method = login and unix_timestamp (timestamp) >= unix_timestamp (current_date - interval 7 day) -- 33b select user_id, count (distinct user_id) as total from events where timestamp between timestamp '2013-08-14 00:00:00' and timestamp '2013-08-21 00:00:00' and rpc_method = 'login' group by user_id -- chatgpt select count (distinct user_id) from events where rpc_method = 'login' and timestamp >= date_sub (now (), interval 1 week);
从测试结果来看,llama 在一些任务上表现还不错,但在另一些任务上和 chatgpt 还有一些差距。如果能像 chatgpt 一样加入一些「训练秘籍」,效果会不会大幅提升?
加入 rlhf,初创公司 nebuly ai 开源 chatllama 训练方法虽然 llama 发布之初就得到众多研究者的青睐,但是少了 rlhf 的加持,从上述评测结果来看,还是差点意思。
在 llama 发布三天后,初创公司 nebuly ai 开源了 rlhf 版 llama(chatllama)的训练方法。它的训练过程类似 chatgpt,该项目允许基于预训练的 llama 模型构建 chatgpt 形式的服务。项目上线刚刚 2 天,狂揽 5.2k 星。
项目地址:https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama
chatllama 训练过程算法实现主打比 chatgpt 训练更快、更便宜,我们可以从以下四点得到验证:
chatllama 是一个完整的开源实现,允许用户基于预训练的 llama 模型构建 chatgpt 风格的服务;与 chatgpt 相比,llama 架构更小,但训练过程和单 gpu 推理速度更快,成本更低;chatllama 内置了对 deepspeed zero 的支持,以加速微调过程;该库还支持所有的 llama 模型架构(7b、13b、33b、65b),因此用户可以根据训练时间和推理性能偏好对模型进行微调。
图源:https://openai.com/blog/chatgpt
更是有研究者表示,chatllama 比 chatgpt 训练速度最高快 15 倍。
不过有人对这一说法提出质疑,认为该项目没有给出准确的衡量标准。
项目刚刚上线 2 天,还处于早期阶段,用户可以通过以下添加项进一步扩展:
带有微调权重的 checkpoint;用于快速推理的优化技术;支持将模型打包到有效的部署框架中。nebuly ai 希望更多人加入进来,创造更高效和开放的 chatgpt 类助手。
该如何使用呢?首先是使用 pip 安装软件包:
pip install chatllama-py
然后是克隆 llama 模型:
git clone https://github.com/facebookresearch/llama.gitcd llama pip install -r requirements.txt pip install -e .
一切准备就绪后,就可以运行了,项目中介绍了 chatllama 7b 的训练示例,感兴趣的小伙伴可以查看原项目。
以上就是meta开源的chatgpt平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星的详细内容。
其它类似信息

推荐信息