您好,欢迎访问一九零五行业门户网

微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力”

微软亚洲研究院联合北京大学、西安交通大学等高校,最近提出了一种名为“从错误中学习(lema)”的人工智能训练方法。该方法声称能够通过模仿人类学习的过程,来提升人工智能的推理能力
当下 openai gpt-4 和谷歌 alm-2 等大语言模型在自然语言处理(nlp)任务,及思维链(chain-of-thought,cot)推理的数学难题任务中都有不错的表现。
但例如 llama-2 及 baichuan-2 等开源大模型,在处理相关问题时则有待加强。为了提升开源这些大语言模型的思维链推理能力,研究团队提出了 lema 方法。这种方法主要是模仿人类的学习过程,通过“从错误中学习”,以改进模型的推理能力。
▲ 图源 相关论文
本站发现,研究人员的方法是使用一对包含“错误解答”与“修正后正确答案”的数据来微调相关模型。为取得相关数据,研究人员收集了 5 个不同大语言模型(包括 llama 及 gpt 系列)的错误答案和推理过程,再以 gpt-4 作为“订正者”,提供修正后的正确答案。
据悉,修正后的正确答案中包含三类信息,分别是原推理过程中错误片段、原推理过程出错的原因、以及如何修正原方法以获得正确答案。
研究人员使用gsm8k和math测试了lema训练法对5个开源大模型的效果。结果显示,在改进后的llama-2-70b模型中,gsm8k的准确率分别为83.5%和81.4%,而math的准确率分别为25.0%和23.6%
目前研究人员已将 lema 的相关资料公开在 github 上,感兴趣的小伙伴们可以点此跳转。
以上就是微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 ai 推理能力”的详细内容。
其它类似信息

推荐信息