折腾ChatGLM的几个避坑小技巧

我昨天说从数据技术嘉年华回来后就部署了一套chatglm，准备研究利用大语言模型训练数据库运维知识库，很多朋友不大相信，说老白你都这把年纪了，还能自己去折腾这些东西？为了打消这些朋友的疑虑，我今天把这两天折腾chatglm的过程分享给大家，也为有兴趣折腾一下chatglm的朋友讲一下避坑的一些技巧。
chatglm-6b是基于清华大学 keg 实验室与智谱 ai 于2023年联合训练的语言模型 glm 开发而成，是一个大型的语言模型，其针对用户的问题和要求提供适当的答复和支持。上面的回答是chatglm自己回答的，glm-6b是一个开源的62亿参数的预训练模型，其特点是可以在比较小的硬件环境下本地运行。这一特性可以让基于大语言模型的应用可以走进千家万户。keg实验室的目的是要让更大的glm-130b模型（1300亿参数，与gpt-3.5相当）能够在一个8路rtx 3090的低端环境中完成训练。
如果这个目标真的能实现，那么对想基于大语言模型做一些应用的人来说绝对是一个福音。目前的chatglp-6b的fp16模型大约13g多一点，int-4量化模型不到4gb，完全可以在一块6gb显存的rtx 3060ti上运行。
在部署前我不太了解这些情况，因此买了一块不上不下的12gb的rtx 3060，于是完成安装部署后仍然无法运行fp16的模型。早知道在自己家里做测试验证，直接买块价格更便宜的3060ti就可以了。而如果要运行无损的fp16模型，就必须上24gb显存的3090了。
如果你仅仅是想在自己的机器上测试一下chatglp-6b的能力，那么你可能不需要直接去下载thudm/chatglm-6b模型，在huggingface上有一些打包好的量化模型可以下载。模型下载速度很慢，你可以直接下载int4的量化模型。
我这次安装是在一台i7 8核的pc机上完成的，显卡为12g显存的rtx 3060，因为这台电脑是我的工作电脑，因此我把chatglm安装在了wsl子系统上。在windows wsl 子系统上安装chatglm比直接在linux环境中安装要复杂一些。其中最大的坑是显卡驱动的安装。直接在linux上部署chatglm的时候，需要直接安装nvidia的驱动程序，通过modprobe来激活网卡驱动就可以了。而在wsl上安装则大有不同。
chatglm可以在github上下载，在网站上也有一些简单的文档，甚至包含一个在windows wsl上部署chatglm的文档。只不过如果你是这方面的小白，完全按照这个文档去部署，会遇到无数的坑。
requriements.txt文档里列出了chatglm使用的主要开源组件的清单与版本号，其核心是transformers,需要版本4.27.1，实际上要求没有这么严格，略低一点也没太大问题，不过安全起见还是用相同的版本为好。icetk是做token处理的，cpm_kernels是中文处理模型与cuda的核心调用，protobuf是结构化数据存储的。gradio是用于利用python快速生成ai应用的框架。torch就不用我多做介绍了。
chatglm可以在没有gpu的环境中使用，利用cpu和32gb的物理内存来运行，不过运行速度很慢，仅仅能够用来做个演示验证而已。要想玩chatglm最好还是配备一块gpu。
在wsl上安装chatglm最大的坑是显卡驱动，在git上chatglm的文档十分不友好，对于不太了解这个项目或者没有做过此类部署的人来说，文档实在太坑。实际上软件部署并不麻烦，而显卡驱动就十分有技巧性。
因为是在wsl subsystem上部署，因此linux只是一个仿真系统，并不是完整的linux，因此英伟达的显卡驱动只需要在windows上安装，不需要在wsl里激活。不过在wsl的linux虚拟环境中还是需要安装cuda tools。windows上的英伟达驱动一定要安装官网上的最新驱动，而不能使用win10/11自带的兼容性驱动，因此从官网上下载最新驱动并安装一定不要省略。
安装完win的驱动后就可以直接在wsl里安装cuda tools了，安装完毕后，运行nvidia-smi如果能够看到上面的界面，那么恭喜你，你已经成功地避开了第一个坑。实际上在安装cuda tools时候还会遇到几个小坑。那就是你的系统中必须安装合适版本的gcc,gcc-dev和make等编译相关的工具，如果缺少这些组件，cuda tools的安装会失败。
上面就是坑人的前期准备，实际上避开英伟达驱动这个坑，后面的安装还是很顺利的。在系统的选择上，我还是建议选择debian兼容的ubuntu，新版的ubuntu的aptitude十分智能，能够帮你解决大量软件的版本兼容问题，实现部分软件的自动降版本。
下面的安装过程完全按照安装指南就可以顺利完成了，要注意的是替换/etc/apt/sources.list里面的安装源的工作最好按照指南完成，一方面安装速度会快很多，另外一方面也避免出现软件版本兼容性的问题。当然不替换也不一定会影响后面的安装过程。
如果你顺利地通过了前面的各道关卡，那么你就进入到了最后一步，启动web_demo了。执行python3 web_demo.py可以启动一个web对话的例子。这时候如果你是个穷人，只有一张12gb显存的3060，那么你就一定会看到上面的报错了，哪怕你把pytorch_cuda_alloc_conf设置为最小的21，也无法避开这个报错。这时候你就不能偷懒了，必须简单地改写一下python脚本。
默认的web_demo.py是使用fp16的预训练模型的，13gb多的模型肯定无法装载到12gb现存里的，因此你需要对这个代码做一个小的调整。
你可以改为quantize(4)来装载int4量化模型，或者改为quantize(8)来装载int8量化模型。这样你的显卡内存就够用了，而且可以支持你做各种对话了。
要注意的是，web_demo.py启动后，模型的下载工作才真正开始，因此要下载13gb的模型，需要相当长的时间，你可以把这项工作放到半夜做，或者你直接用迅雷等下载工具预先从hugging face上下载模型。如果你对模型一无所知，不太会安装下载的模型，你也可以修改代码中的模型名称，thudm/chatglm-6b-int4，直接从网上下载只有不到4gb的int4量化模型，这样会快很多，反正你的破显卡也跑不起fp16的模型。
至此，你可以通过网页与chatglm对话了，不过这一切只是折腾的开始。只有你能够把你的微调模型训练出来了，那么你的chatglm的入坑之旅才会真正开始。玩这种东西还是需要大量的精力和金钱的，入坑要慎重。
最后我还是十分感谢清华大学keg实验室的朋友，他们的工作让更多的人可以低成本地使用大语言模型。
以上就是折腾chatglm的几个避坑小技巧的详细内容。

折腾ChatGLM的几个避坑小技巧

推荐信息