Salvatore Sanfilippo(网名 antirez)对 2025 年 AI 现状的 8 个洞察:
1. “随机鹦鹉”论:正式扫入历史垃圾堆
到了 2025 年,曾经风靡一时的“随机鹦鹉”理论(认为大模型只是在毫无意识地拼凑概率)终于彻底熄火了。
事实胜于雄辩。随着模型在医学诊断、法律咨询和高难度数学竞赛中全面爆发,学术界通过逆向工程证实了一件事:大语言模型(LLM)的内部,确实形成了深刻的语义表征(Semantic Representation)。
预测下一个 Token(词元)绝不是简单的玩填字游戏,而是模型在真正理解了逻辑之后的必然产物。正如 AI 教父 Geoffrey Hinton 所说:“要完美预测未来,你必须先理解这个世界。”
2. 思维链(CoT):不仅是草稿纸,更是内部搜索
现在大家都知道,让 AI 展示“思维链”(CoT,Chain of Thought)就像变魔术一样能提升效果,但 Salvatore 拆解了这个魔术盒。他认为 CoT 的本质其实是两件事:
采样与搜索:模型在正式回答你的问题前,先在自己的知识库(表征空间)里进行了一次“内部搜索”,把相关的概念搬运到当前的上下文里。
状态收敛:结合强化学习(RL),模型生成的每一个思考步骤(Token),都在改变它内部的状态,一步步引导它走向那个最优解。这不再是盲目的猜测,而是一种有目标的逻辑收敛。
3. 告别数据枯竭:可验证奖励的“暴力美学”
以前人们总是担心:人类写出来的文字快被 AI 读完了,Scaling Law(规模定律)是不是要撞墙了?但 2025 年,强化学习 + 可验证奖励(Verifiable Rewards)打破了这一僵局。
在编程、数学这些领域,答案是对是错、运行是快是慢,是可以自动判断的。于是,模型开始自我博弈、自我进化。它不再需要人类一口口喂饭,自己在实验室里就能跑程序、证定理,源源不断地产生高质量的训练数据。AI 的“AlphaGo 时刻”正在更多垂直领域上演。
4. 程序员的集体“真香”:从抵触到分流
2025 年,程序员群体对 AI 的抵抗情绪基本消失了。原因很简单:投入产出比(ROI) 实在太香了。哪怕 AI 偶尔会犯错,但它带来的效率提升,足以覆盖掉你去修 Bug 的成本。
现在的编程界分裂成了两大流派:
协作派:把 LLM 当作“超级同事”。像 Salvatore 自己,就在网页端和模型深度交流思路,一起探讨架构。
智能体派:把 LLM 当作“独立劳动力”。直接甩给 Agent(智能体)一个任务,让它自动去写代码、跑测试、修 Bug。
5. 范式之争:Transformer 也许就能通往 AGI
虽然很多科学家正急着寻找 Transformer 架构之外的“新大陆”(比如世界模型或显式符号表征),但 Salvatore 持不同观点。
他认为,LLM 作为一种在连续空间上训练的可微机器(Differentiable Machine),已经足以模拟离散的推理步骤。我们未必需要什么颠覆性的新架构,AGI(通用人工智能)完全可能在现有的 Transformer 框架下,通过多条路径独立到达。
6. 别拿 CoT 当借口:承认 LLM 的强大很难吗?
Salvatore 观察到一个有趣的现象:一些老牌评论家为了面子,开始找补说“是因为 CoT 改变了 LLM 的本质,所以它才变强了,原来的 LLM 还是不行的”。
对此,他的评价极其辛辣:“他们在撒谎。”
底层的架构根本没变,依然是预测下一个 Token。CoT 只是把这种预测能力发挥到了极致。对于这些人来说,承认自己之前看走眼了,似乎比重新定义 LLM 要难得多。
7. ARC 测试:从“差生鉴别器”变成“毕业证”
François Chollet 设计的 ARC(抽象推理测试)曾经被视为 LLM 永远无法逾越的天堑,是用来证明“AI 不会推理”的铁证。
然而在 2025 年,OpenAI 的 o3 模型和具备深度 CoT 能力的大模型,在 ARC-AGI-2 测试上拿到了惊人的高分。这个原本为了证明“LLM 不行”而设计的测试,反而成了证明“LLM 具备真正推理能力”的最高荣誉勋章。
8. 终极挑战:未来 20 年的生存命题
未来 20 年,AI 领域的根本挑战只有一个:避免灭绝(avoiding extinction)。