您好,欢迎访问一九零五行业门户网

GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群

自 gpt-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 gpt-4 成为机器学习领域最前沿的模型之一。然而,openai 至今未公开 gpt-4 的任何技术细节。
上个月,乔治・霍兹(george hotz)在接受一家名为 latent space 的 ai 技术播客的采访时提到了 gpt-4,并称 gpt-4 其实是一个混合模型。具体来说,乔治・霍兹称 gpt-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 gpt-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
latent space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、uc 伯克利、mit 等机构的研究者联合发表的一篇论文证实:混合专家模型(moe)与指令调优的结合能够让大型语言模型(llm)的性能大幅提升。
图片
论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(llm)增加可学习的参数。指令调优(instruction tuning)是一种训练 llm 遵循指令的技术。该研究发现 moe 模型比密集模型更能从指令调优中获益,因此提出将 moe 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,moe 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),flan-moe_32b(fine-tuned language net,简写为 flan,是一种经过指令调优的模型,flan-moe 即为指令调优 moe)在四个基准任务上性能超过了 flan-palm_62b,却只用了三分之一的 flops。
如下图所示,在使用指令调优前,moe→ft 不如 t5→ft。指令调优后,flan-moe→ft 优于 flan-t5→ft。moe 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):
图片
看来 gpt-4 采用混合模型还是有点根据的,moe 确实能够从指令调优中获得更大的收益:
图片
方法概述研究者在 flan-moe (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 moe(mixture-of-experts)。此外,他们还用 moe 层替换了其他 transformer 层的前馈组件。
每个 moe 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 moe 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 e 个专家的 moe 层,这实际上提供了 o (e^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 flan-moe 是经过指令调优的模型,因而指令调优非常重要,该研究在 flan 集合数据集的基础上对 flan-moe 进行微调。此外,该研究将每个 flan-moe 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析平均而言,在不增加任何额外计算的情况下,flan-moe 在所有模型尺度上都优于密集的同类产品 (flan-t5)。
图片
专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 moe 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。
图片
图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 flan-switch 和 flan-gs 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,mmlu-direct 模型显示出最显著的改进,对于 base/large 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 moe 模型在保留 mmlu、bbh 和内部 qa 和推理基准测试方面的性能。对于较大的 moe 模型,这些优势进一步放大。例如,指令调优使 st_32b 的性能提升了 45.2%,而对于 flan-palm_62b,这种改进相对较小,约为 6.6%。
当进行模型扩展时,flan-moe (flan-st-32b) 优于 flan-palm-62b 。
图片
此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 moe 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 moe 组件对模型性能有负面影响。
相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 flan-moe 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。
最后,为了比较直接对 moe 进行微调和 flan-moe 之间的差距,该研究对单任务微调的 moe、单任务微调的 flan-moe 和密集模型进行了实验,结果如下图 6 所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上就是gpt-4使用混合大模型?研究证明moe+指令调优确实让大模型性能超群的详细内容。
其它类似信息

推荐信息