Thoughts - Tag - ChrisRaynor 的博客

训练数据耗尽不是终点

Wed, 08 Apr 2026 22:12:00 +0800

Co-authored with Claude. 整理自原始笔记。

AI 正在耗尽人类数据，而现在 AI 生成内容正在迅速污染互联网。2024 年的 Nature 论文说，AI 如果一直在自己输出的东西上训练会越来越差。这些标题很容易被串成一个结论——随着人类训练数据耗尽，AI 的进步会停滞。但我想不是这样的。

Wed, 08 Apr 2026 00:28:00 +0800

teaser？——

一种说法是 AI 在耗尽它的训练数据（人类来源的东西）——Epoch AI 估计公开可用的高质量人类文本总量约 300 万亿 token，按当前训练规模可能在 2026–2032 年间耗尽（Villalobos et al., “Will we run out of data?”, ICML 2024）。而 AI 如果后续在自己输出的东西上训练，只会越来越差——学术上叫 model collapse（Shumailov et al., “AI models collapse when trained on recursively generated data”, Nature 2024），网上也有人叫 “Habsburg AI”。

Harness 是新瓶装旧酒吗

Thu, 26 Mar 2026 13:42:00 +0800

Co-authored with Claude. 整理自原始笔记。

有人说 harness 这个概念是新瓶装旧酒——传统软件工程早就有类似的东西，围绕主要算法提供支撑的外层，以及导致同一个算法在不同环境下行为不同的原因。

从宿命论与自由意志的思想游戏到悖论

Mon, 02 Feb 2026 00:00:00 +0000

#expose-to-agent 当看到时空穿越的科幻作品时，我们常看到两种假说或表现形式

穿越到过去创建新的时间线，你可以改变那条时间线。（这是什么平行宇宙理论吗）
只有一条时间线，穿越不能改变任何东西。
还有什么能与这两个并列的假设：
时间旅行不存在。

我们来 play with 假设 2