训练数据耗尽不是终点

Anonymous

2026-04-08 About 1300 words 3 minutes

Co-authored with Claude. 整理自原始笔记。

AI 正在耗尽人类数据，而现在 AI 生成内容正在迅速污染互联网。2024 年的 Nature 论文说，AI 如果一直在自己输出的东西上训练会越来越差。这些标题很容易被串成一个结论——随着人类训练数据耗尽，AI 的进步会停滞。但我想不是这样的。

首先，仔细看论文本身会发现，标题暗示的崩溃场景和现实做法差距很大（详见文末附注）。标题对应的实验中，模型只在上一代的输出上训练，不混入原始人类数据，且对 AI 的输出不加筛选。

而现实中，模型的训练数据通常仍会包含人类数据；即使当下 AI 生成内容在网络扩散，获取人类数据可能越来越难，大模型实验室也在花大量功夫筛选数据来保证数据质量。

回到耗尽人类数据这件事——人类数据可能确实越用越少，但这不一定是个问题。

一方面，AI 的增强让一部分人类来源数据的必要性减弱了。例如代码方面，AI 的出现让 Stack Overflow 流量骤减，因为问 AI 就能解决大部分问题，人类贡献的问答也相应减少了。那么某种意义上，我们已经不需要其中的一部分数据了，因为 AI 已经能更好地回答它们了。确实，AI 经常给出错误答案——但我自己上 Stack Overflow 也很难保证一次就对，而是经常也要试错。很多情况下错误是由于信息不全，AI 并没有掌握足够的关键信息，就像我搜索的时候也不能确保某个帖子就能解决我的问题。

另一方面，某种意义上，人类也是不停地在自己的输出上训练——学术著作、书籍、艺术作品、技术报告，但人类没有 collapse，人类在螺旋上升——人类有实践结果作为最终的校准。AI 也可以有。（不过人类实践的反馈循环有时候可以说慢得离谱。）

AI 借助实践反馈，最直接的例子是围棋。AlphaGo 最初要依赖人类棋谱，后续 AlphaGo Zero 开始完全不需要人类棋谱数据——它有了在它那个领域的"世界"进行实践并校准的能力，使用极其简单的奖励信号设计（输/赢）达到了超越人类的水平。

实践是检验真理的唯一标准。Agent 这个概念让 LLM 这个缸中之脑有了与世界接触的能力，也就有了通过实践校准自己的能力。当然不同领域的客观反馈获取难度不一样：输赢判断明确的围棋是一个反馈简单的例子；CUDA Agent 涉及编码、编译、性能分析，是一个更难的例子；写作等领域则更依赖主观评判。即使在难以直接实践的领域上，AI 也能依赖人类筛选获得间接反馈。

基于文本的Next token predictor可能不是这个缸中之脑最合适的引擎，但它是现在最好用的。再扩展，有 Gemini贯彻的多模态训练，有 LeCun 的世界模型，或许还有很多方向，能让这个缸中之脑最终接入和理解不同的现实反馈。

附：关于 Nature 论文中的限定条件（着重是我加的）

论文实际上有明确的限定。“Indiscriminate use”（不加筛选地使用）是导致崩溃的前提条件，而非所有合成数据训练都会崩溃：

“We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models”（p. 755）

保留少量真实数据就能极大缓解退化。论文比较了两种设定：完全不保留原始数据时，perplexity 从 20 恶化到 28；仅保留 10% 的原始数据，退化就变得很小：

“preservation of the original data allows for better model fine-tuning and leads to only minor degradation of performance"（p. 758）