teaser?——
一种说法是 AI 在耗尽它的训练数据(人类来源的东西)——Epoch AI 估计公开可用的高质量人类文本总量约 300 万亿 token,按当前训练规模可能在 2026–2032 年间耗尽(Villalobos et al., “Will we run out of data?”, ICML 2024)。而 AI 如果后续在自己输出的东西上训练,只会越来越差——学术上叫 model collapse(Shumailov et al., “AI models collapse when trained on recursively generated data”, Nature 2024),网上也有人叫 “Habsburg AI”。
一种说法是 AI 在耗尽人类来源的数据,而 AI 如果一直在自己输出的东西上训练只会越来越差。——Epoch AI估计公开可用的高质量人类文本总量约 300 万亿 token,按当前训练规模可能在 2026–2032 年间耗尽;2024 年 Nature 论文说"AI models collapse when trained on recursively generated data(AI 模型在递归生成的数据上训练时会崩溃)"
一种说法是 AI 正在耗尽人类数据,而现在AI生成内容正在迅速污染互联网,如果AI转向在自己的输出上训练,只会越来越差。Epoch AI 估计高质量人类文本可能在 2026–2032 年间耗尽。
一种说法是 “AI 正在耗尽人类数据”,而现在AI生成内容正在迅速污染互联网,2024年的Nature论文说,AI 如果一直在自己输出的东西上训练会越来越差。Epoch AI 估计高质量人类文本可能在 2026–2032 年间耗尽。
一种说法【这个一种说法能不能改一改】是 AI 正在耗尽人类数据,而现在AI生成内容正在迅速污染互联网,2024年的Nature论文说,AI 如果一直在自己输出的东西上训练会越来越差。
你可能听过这样的说法——AI 正在耗尽人类数据,而现在AI生成内容正在迅速污染互联网。2024年的Nature论文说,AI 如果一直在自己输出的东西上训练,会越来越差。
【小红书纯文字版的时候,链接内容在这里展开?
或者我们可以当作写小红书是在写纸质书。那规范排版的话,使用脚注?】:
Epoch AI, “Will we run out of data?”, ICML 2024
Shumailov et al., “AI models collapse when trained on recursively generated data”, Nature 2024
这些标题很容易被直接串成一个结论,即随着人类训练数据耗尽,AI的进步会停滞,但我想不是这样的。
首先,仔细看我们会发现一个陷阱——标题所暗示的导致崩溃的做法和现实做法差距极大:其一是每一代模型只在上一代的输出上训练,不混入原始人类数据;其二是是对AI的输出不加筛选。而现实中,模型的训练数据中通常仍会包含人类数据;即使当下AI生成内容不断在网络扩散,获取人类数据可能越来越难,大模型实验室也在花大量功夫进行数据筛选来保证数据质量——无论是人类数据还是合成数据。
相对于只读媒体标题,论文中更清楚的叙述(非主线)——
(emphasis mine)备忘,或许这些可以扔到文末参考
不加筛选是个限定条件——
“We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models” (Shumailov et al., 2024, p. 755) (pdf)
不保留真实数据也是个限定条件,10%的真实数据保留就能极大保持性能——
“Here we consider two different settings: • Five epochs, no original training data. Here the model is trained for five epochs starting on the original dataset but with no original data retained for subsequent runs. The overall original task performance is presented in Fig. 1b. We find that training with generated data allows us to adapt to the underlying task, losing some performance, from 20 to 28 perplexity points. • Ten epochs, 10% of original training data preserved. Here the model is trained for ten epochs on the original dataset and with every new generation of training, a random 10% of the original data points is sampled. The overall original task performance is presented in Fig. 1c. We find that preservation of the original data allows for better model fine-tuning and leads to only minor degradation of performance.” (Shumailov et al., 2024, p. 758) (pdf)
wait其实论文也有某种现实意义是,生成式AI输出在大量污染互联网,可能导致所收集到的数据中生成数据的占比越来越高?新的真实人类的高质量数据可能更难从网络获取?
事实上这是个问题的前提是,模型本身在高度依赖从网络获取的用户生成内容训练,但问题是,是吗?——
至少曾经是
#llm-draft/reviewed
LLaMA 的训练数据构成为:CommonCrawl 67%,C4 15%,GitHub 4.5%,Wikipedia 4.5%,Books 4.5%,ArXiv 2.5%,StackExchange 2% Scribd。
#mine
from [2302.13971] LLaMA: Open and Efficient Foundation Language Models
“Dataset Sampling prop. Epochs Disk size CommonCrawl 67.0% 1.10 3.3 TB C4 15.0% 1.06 783 GB Github 4.5% 0.64 328 GB Wikipedia 4.5% 2.45 83 GB Books 4.5% 2.23 85 GB ArXiv 2.5% 1.06 92 GB StackExchange 2.0% 1.03 78 GB” (Touvron et al., 2023, p. 2) (pdf)
回到耗尽人类数据本身的后果,人类数据可能确实越用越少,但这不一定是个问题。
一方面,AI的增强让一部分人类来源数据的必要性减弱了。例如代码方面,AI的出现让stack overflow流量骤减,因为人们问AI就能解决大部分问题,人类贡献问答的几率也在相应减少。那么某种意义上,我们已经不需要其中的一部分数据了,因为ai已经逐渐能更好地回答他们了。确实,AI经常给出错误答案——但我自己上stackoverflow也很难保证每次都一次就对,经常包含很多试错。很多情况下由于信息不全,AI并没有掌握足够的关键信息而给出正确答案,就像我搜索的时候也不能确保某个帖子就能解决我的问题。
【blog略掉】不过不得不说,我记得涉及很多细节的踩坑的时候我还是要依靠真人经验,这种时候更容易match上某个具体路径从而找到解决方案,比如直接翻issue。
另一方面,某种意义上,人类也是不停的在自己的输出上训练——学术著作、书籍、艺术作品、技术报告,但是人类没有collapse,人类在螺旋上升——人类有实践结果作为最终的校准,AI也可以有。(不过人类实践的反馈循环有时候可以说慢的离谱)
对于AI借助实践反馈,最直接的例子是围棋。AlphaGo最初要依赖人类棋谱,后续AlphaGo Zero开始完全不需要人类棋谱数据,他有了在它那个领域的"世界"进行实践并进行校准的能力~~(不过我不知道奖励在这里是如何设计的)~~,而后使用极其简单的奖励信号设计(输/赢)达到了超越人类的水平。
实践是检验真理的唯一标准,agent这个概念让llms这个缸中之脑有了与世界接触的能力,也就有了通过实践校准自己的能力。当然不同领域的反馈难度不一样,输赢判断明确的围棋是一个反馈简单的例子,CUDA Agent【add link】涉及【我的印象是profiling工具,总之更复杂】,是一个更难的例子,【往后还有什么?】。即使在难以直接实践的领域上,AI也能依赖人类筛选获得间接反馈。
实践是检验真理的唯一标准,agent这个概念让llms这个缸中之脑有了与世界接触的能力,也就有了通过实践校准自己的能力。当然不同领域的客观反馈难度获取不一样,输赢判断明确的围棋是一个反馈简单的例子;CUDA Agent涉及编码、编译、性能分析,是一个更难的例子;写作等领域则更依赖主观评判。即使在难以直接实践的领域上,AI也能依赖人类筛选获得间接反馈。
next token predictor可能不是这个缸中之脑最终最合适的引擎,但现在他是最好用的,也是容易产生价值的。再扩展,有gemini贯彻的多模态训练,有lecun的世界模型,或许还有很多方向,能让这个缸中之脑最终接入和理解不同的现实反馈
2026-03-25:我看到了一篇相关的帖子
“https://github.com/facebookresearch/Hyperagents" (“为了给NeurIPS审稿,Meta的Agent自己重写了底层代码”) (snapshot)
2026-03-25:from Transcript for Jensen Huang: NVIDIA - The $4 Trillion Company & the AI Revolution | Lex Fridman Podcast #494 - Lex Fridman
“Jensen Huang (00:23:57) We’re gonna keep on scaling the amount of data that we have to train with. A lot of that data is probably gonna be synthetic, and that also confused people, you know? And what people don’t realize is they’ve kind of forgotten that most of the data that we are training, that we teach each other with, inform each other with, is synthetic. You know, it’s synthetic because it didn’t come out of nature. You created it. I’m consuming it. I modify it, augment it, I regenerate it, somebody else consumes it. And so we’ve now reached a level where AI is able to take ground truth, augment it… Enhance it, synthetically generate an enormous amount of data.” (“Transcript for Jensen Huang: NVIDIA - The $4 Trillion Company & the AI Revolution | Lex Fridman Podcast #494 - Lex Fridman”) (snapshot)