模型训练
Key Takeaway
- Meta开源Llama 3.1具有里程碑意义,其性能达到GPT-4o水平,可通过知识蒸馏和微调适应特定任务和领域。
- 微调(Fine-tuning)是将通用大模型(如大学毕业生)训练成掌握特定技能(如公司培训)的过程。
- LoRa和QLoRa是微调技术,它们通过在模型上添加“便签纸”而非重写整个模型来高效地进行修改。
- 数据集是微调的“培训教材”,Alpaca数据集有助于训练高质量的指令跟随型AI助手。
- SFTTrainer是简化微调过程的训练工具,相当于培训老师。
- 过度拟合是指模型“死读书”,失去举一反三的能力,需要通过lora dropout等参数设置来避免。
- 大模型微调的关键在于“教材的质量”(数据集)和“教学的质量”(参数设置)。
- Unsloth框架是微调加速神器,能显著减少显存占用和训练时间,方便新手使用。
- 微调后的模型可以导出为adapter(技能模块)或GGUF文件,并上传到Hugging Face等平台。
Full Content
Meta开源Llama 3.1是一件功德无量的事。
因为最好的闭源模型代表着天花板,那是人类可以达到的能力上限。而最好的开源代表着全民福利,那是所有人都可以接触到的基准,是科技平权价值观的展现。
这一次,开源的Llama 3.1在性能上达到GPT-4o水平。我们可以通过知识蒸馏,用最大最强的405B模型去打造小模型;也可以通过微调,让8B的模型去适应特定的任务和领域。
之前国内有些人说,开源模型是智商税,开源模型会越来越落后。这种人,不是蠢就是坏,跳梁小丑罢了。
OK不跑题,咱们今天来聊一下微调。之前一直没碰这个领域是因为,我感觉条件还没到。现在模型够强了,工具也成熟了。我试了一下,比预想中的容易多了——你看,上周我在newtype社群里发了消息,说要用Unsloth微调Llama 3.1,结果下午就成功了。
整个过程我都是在Google Colab上跑的,用的是免费的T4 GPU。数据集不大,训练花了11分半。生成q4、q5和q8三个GGUF文件比较慢,我等了应该有半个多小时。最后,这些GGUF文件都自动上传到我的Hugging Face账号上。
之所以会这么快速和顺利,主要是因为我用的是Unsloth框架。这个框架真的是微调加速神器。用了它之后,显存占用更少,训练时间也显著缩短。我强烈建议大家试试。
为了方便像我这样的新手使用,Unsloth提供了模型和代码。我就是在他们给的基础上做了一点修改。
虽然整个过程需要自己动手的地方不多,但微调相关的知识还是得理解的,因为里边的门道很深。我先用大白话分享一些我认为比较关键的点,然后再带大家过一遍代码,不然看得一头雾水也没用。
第一,什么叫微调?
厂商把大模型训练出来,就好比大学生顺利毕业,具备一定的通用技能。但是要入职、要上岗,还得接受公司的培训。这种公司培训就是微调,让大模型这个新人快速掌握一些特定的技能。
第二,lora和qlora是什么?
如果把大模型比作一本百科全书的话,我们做微调,并不是要把书重新写一遍,而是在一些页面上贴上便签纸,上边写上一些额外的信息就可以了。LoRa就是这样的便签纸。而QLoRa更进一步,它这个便签纸可以在更小的纸片上写更多字。
第三,数据集是什么?
前边说了,大模型要接受“上岗培训”。那么,数据集就是培训教材。你可以用自己的数据做成数据集的格式,也可以用公开的。其中,在公开数据集方面,为了让大模型能更好理解人类指令,并且做出恰当回应,斯坦福大学的研究人员创建了Alpaca数据集。有了它,我们就能用相对较少的资源训练出高质量的指令跟随型AI助手。
第四,SFTTrainer是什么?
对我们使用者来说,SFTTrainer就是训练工具。它简化了微调过程,而且提供很多设置和优化选项,特别好用。对大模型来说,SFTTrainer就好比培训班的老师。它接收大模型这些学生,拿到数据集作为教材,然后开始教大模型如何更好地去执行特定的任务。
第五,过度拟合是什么?
我们都遇到过,那些读书读过头的人,考试很厉害,但是遇到教材里没教的问题就不会了。同样,大模型也存在这种可能性,只会应对见过的情况,而失去了举一反三的能力。这种“死读书”的结果,就叫过度拟合。
所以,根据这五个知识点,我们就能得出,大模型微调有两个关键:
第一,教材的质量。数据集不行,那再怎么训练也不行。
第二,教学的质量。怎么用有限的资源把大模型教得恰到好处,这里边涉及到很多参数的设置,就很有门道了。
接下来,我给大家看看我上周第一次微调用的代码。不要有畏难情绪,这个就是一个熟悉的过程。多经历几次之后,再看这些代码就很亲切了。它其实很简单,待会儿看完你就知道,最核心的设置就是“教学设置”和“教材设置”。
在最开始,肯定是把需要的Package都安装和加载。
接着,加载Unsloth已经预处理好的模型。主流的模型都有,包括Mistral、Gemma等等。我的目标是Llama 3.1,所以在模型名称这边就填Llama 3.1。Unsloth的Hugging Face主页有更多模型,包括qwen之类的,大家可以去看一眼。
这个设置当中,有一个参数叫max seq length。它的意思是,模型一次可以处理的最大token的数量。不同模型有不同的默认值,从512、1024、2048,甚至更多。可以简单理解为,大模型阅读教材的话,一次能看多少个字的内容。
这一步完成之后,紧接着是参数配置。其中,target modules指的是,我们打算具体修改模型的哪个部分。把大模型比做一个机器人的话,这个机器人已经会一些基本运动了。这时候,我们要教它跳舞,那就针对它腿部的动作模块做修改,而不需要改动整个机器人。这个设置好了,就能让整个微调过程更有针对性,也更加高效。
另外,还有两个重要的参数:
lora alpha这个值设得越大,lora的影响越显著。也就是说,咱们可以通过这个设定来对模型原始性能和新技能做平衡。
lora dropout指的是,在训练过程中,会随机关闭一定比例的神经元。这就好比是,你在练习钢琴的过程中,有的时候会闭着眼睛弹。这样就强迫你自由发挥,避免“死读书”或者说过度拟合的结果出现。
模型都配置完了,接下来要配置数据集了。我的目标是强化Llama 3.1的Python能力,所以给它配的教材是python code instructions。这个数据集的内容格式包括三列:
Key Takeaway
- 大模型厂商普遍关注上下文长度,但忽略了输出长度的限制。
- 目前大模型的输出长度普遍在2-3千字,主要原因是缺乏长文本训练素材。
- 智谱通过增加长输出数据训练,显著提升了模型的输出长度。
- 文章呼吁厂商应关注并提升模型的输出长度,以满足日常需求。
Full Content
我一直很不理解,怎么所有大模型厂商都在卷上下文长度,但就是没人关注输出长度。
现在要是发个新版本的模型,没个128K的上下文窗口,你都不好意思跟人打招呼。但是,模型的输出长度,也就是一次最多能回复多少字,好像有点停滞不前——两三千字就顶天了。
我拿ChatGPT和Claude做了个测试。我的需求是:
请帮我撰写一个主题为「黑神话·悟空」玄幻小说。小说以孙悟空为核心,讲述一个天庭腐败不堪、祸害三界,孙悟空与妖怪兄弟对抗天庭、拯救苍生的玄幻故事,不少于10000字。
ChatGPT的表现让我非常不满。
丫一上来就摆烂,说什么写10000字太费劲,只能帮我写一部分内容,以及给个大框架,剩下的还是得我自己来。
现在的AI都这么像打工人了吗?
当我要求它继续往下写的时候,ChatGPT就开始敷衍了。它象征性地写了几章,然后就马上宣布整个故事完结了。
真的,我都想骂人了…
相比之下,Claude就好太多了,大家还是订阅Claude吧。
虽然没法一次性输出10000字,但Claude好歹给出了解决办法:分章节输出,一个章节两三千字;用户可以随时给反馈意见。
这个才是AI该有的态度!
我让Claude写了几章。不得不说,它文笔还是不错的,写得有模有样。如果给它具体指导的话,写点小说发表肯定没问题。
这两个例子很有代表性。今天的模型产品,输出长度大概就是2千字。
为什么会这样?
智谱在论文里解释了。核心原因就是,缺少长文本的训练素材。我们给大模型训练用的数据集,很少有超过2千字的材料。所以,它都没见过、没被训练过,那自然写不出来。
为了解决这个问题,智谱的人特意准备了一份长输出的数据,里边的数据长度从2K到32K都有。把它跟通用数据结合,形成完整的数据集,给到两款支持128K上下文窗口的模型做微调,一个是GLM-4-9B,一个是Llama-3.1-8B。效果立竿见影。
我在Google Colab上做了测试,用A100 GPU分别跑两个模型。还是刚才那个写玄幻小说的任务。
GLM-4-9B完成得比较好。我把它写贴到Ulysses里给大家看看。一共1.1万字,分成13章,从世界背景介绍开始,一直到最终大决战、打败天帝。
Llama-3.1-8B的字数没有达标,只有8千多字。不过即使这样,也大大超出平均水平的两三千字。
说实话,当AI把小说写出来的时候,我还是挺震惊、挺兴奋的——毕竟第一次看到输出这么长的内容。之前的典型情况是,我让AI帮我翻译一个论文,或者修改一篇稿子,结果返回了半截就停下来了,这个就非常不爽、不方便了。
如果说,32K的上下文长度算是够用级别的话,那么至少5千字的输出长度才能满足日常需求。
接下来,我会试着用智谱的训练集去多微调几个模型。我也真心希望,国内的厂商别都在那边无脑地追逐超长上下文窗口,把这个当成一个营销噱头,搞得跟手机厂商跑分一样。是时候把输出长度提上来了。
OK,以上就是本期内容。想找我的话,来newtype社群。咱们下期见!