训练数据耗尽不是终点
Co-authored with Claude. 整理自原始笔记。
AI 正在耗尽人类数据,而现在 AI 生成内容正在迅速污染互联网。2024 年的 Nature 论文说,AI 如果一直在自己输出的东西上训练会越来越差。这些标题很容易被串成一个结论——随着人类训练数据耗尽,AI 的进步会停滞。但我想不是这样的。
首先,仔细看论文本身会发现,标题暗示的崩溃场景和现实做法差距很大(详见文末附注)。标题对应的实验中,模型只在上一代的输出上训练,不混入原始人类数据,且对 AI 的输出不加筛选。
而现实中,模型的训练数据通常仍会包含人类数据;即使当下 AI 生成内容在网络扩散,获取人类数据可能越来越难,大模型实验室也在花大量功夫筛选数据来保证数据质量。
回到耗尽人类数据这件事——人类数据可能确实越用越少,但这不一定是个问题。
一方面,AI 的增强让一部分人类来源数据的必要性减弱了。例如代码方面,AI 的出现让 Stack Overflow 流量骤减,因为问 AI 就能解决大部分问题,人类贡献的问答也相应减少了。那么某种意义上,我们已经不需要其中的一部分数据了,因为 AI 已经能更好地回答它们了。确实,AI 经常给出错误答案——但我自己上 Stack Overflow 也很难保证一次就对,而是经常也要试错。很多情况下错误是由于信息不全,AI 并没有掌握足够的关键信息,就像我搜索的时候也不能确保某个帖子就能解决我的问题。
另一方面,某种意义上,人类也是不停地在自己的输出上训练——学术著作、书籍、艺术作品、技术报告,但人类没有 collapse,人类在螺旋上升——人类有实践结果作为最终的校准。AI 也可以有。(不过人类实践的反馈循环有时候可以说慢得离谱。)
AI 借助实践反馈,最直接的例子是围棋。AlphaGo 最初要依赖人类棋谱,后续 AlphaGo Zero 开始完全不需要人类棋谱数据——它有了在它那个领域的"世界"进行实践并校准的能力,使用极其简单的奖励信号设计(输/赢)达到了超越人类的水平。
实践是检验真理的唯一标准。Agent 这个概念让 LLM 这个缸中之脑有了与世界接触的能力,也就有了通过实践校准自己的能力。当然不同领域的客观反馈获取难度不一样:输赢判断明确的围棋是一个反馈简单的例子;CUDA Agent 涉及编码、编译、性能分析,是一个更难的例子;写作等领域则更依赖主观评判。即使在难以直接实践的领域上,AI 也能依赖人类筛选获得间接反馈。
基于文本的Next token predictor可能不是这个缸中之脑最合适的引擎,但它是现在最好用的。再扩展,有 Gemini贯彻的多模态训练 ,有 LeCun 的世界模型,或许还有很多方向,能让这个缸中之脑最终接入和理解不同的现实反馈。
附:关于 Nature 论文中的限定条件(着重是我加的)
论文实际上有明确的限定。“Indiscriminate use”(不加筛选地使用)是导致崩溃的前提条件,而非所有合成数据训练都会崩溃:
“We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models”(p. 755)
保留少量真实数据就能极大缓解退化。论文比较了两种设定:完全不保留原始数据时,perplexity 从 20 恶化到 28;仅保留 10% 的原始数据,退化就变得很小:
“preservation of the original data allows for better model fine-tuning and leads to only minor degradation of performance"(p. 758)