
人工智慧(AI,人工智能)竞赛持续升温,一项原本属于工程优化的技术——AI蒸馏(AI distillation,又称知识蒸馏)——正迅速走向地缘政治前线,成为美中科技竞争中的新焦点。
过去几周,围绕这项技术的争议明显升温。美国政府和部分大型科技公司指控,一些中国企业透过蒸馏技术“复制”美国的先进AI模型能力;中国则反驳相关说法,强调技术进步来自自主研发,并质疑指控带有政治动机。原本偏向工程与研究的技术问题,正逐步升级为涉及知识产权、竞争公平与国家安全的议题。
美国总统特朗普周一(5月4日)表示,预计将于本月稍后与中国国家主席习近平会面,并称会提醒对方美国在AI领域保持领先地位。在白宫举行的小型企业峰会上发表演说时,特朗普将双方科技竞争形容为既具竞争但仍保持友好的关系,显示AI已成为双边关系中的核心议题之一。
特朗普说:“我们已在人工智慧领域领先中国。两周后我将与习近平主席会晤。我很期待……我们之间存在着非常友好的竞争,但这实际上是一次非常重要的访问。”
美国布鲁金斯学会中国中心研究员陈凯欣(Kyle Chan)博士对BBC中文表示,美国的政策思路正在发生转变,“美国认为,只限制晶片与设备出口已经不够,相关行动已扩展到演算法与数据。”
什么是“AI蒸馏”?
要理解这场争议,首先需要回到蒸馏技术本身。
AI蒸馏建立在当前人工智慧的基本现实之上:性能最强的AI模型,往往也是最昂贵、最难部署的。
当前主流的大型语言模型系统,通常拥有数十亿甚至数千亿个参数,比如OpenAI与Anthropic开发的模型,之所以能够处理复杂语言任务,很大程度依赖于庞大算力与高端晶片支撑,其训练与运行成本极高。
在这样的条件下,AI蒸馏提供了一条不同的技术路径。
它的核心原理,是用一个性能强大的“教师模型”,对大量任务生成结果,再用输出的结果来训练一个教小的“学生模型”。与传统大语言模型训练方式不同,“学生模型”不仅学习正确答案,还会学习“教师模型”对不同答案的判断方式。
举例来说,在传统训练中,AI模型只需判断一张图片是猫还是狗。但在蒸馏过程中,模型会学习各更细致的概率分布,比如“80%是猫、15%是狗、5%是其他动物”。这种资讯能帮助“学生模型”掌握更完整的决策逻辑。
因此,一个较小的模型,往往能在成本更低的情况下,达到接近大型模型的效果。它并不是从零开始学习,而是建立在既有模型能力之上的“二次学习”。
这种技术正在加速AI技术的传播。一旦强大模型被开发出来,它的能力可以透过蒸馏技术,被转移到多个较小的模型中,加速商业化和跨场景应用。这使得AI能力不再局限于少数科技巨头,可能更快进入市场,甚至跨越国界。
AI业界的质疑
近日,马斯克(Elon Musk)在一场涉及OpenAI的诉讼案庭审中承认,其旗下人工智慧公司xAI在训练模型时“部分”使用了OpenAI模型的输出进行蒸馏。他直言:“一般来说,所有AI公司都这么做”。
这一表态显示,利用其他模型进行蒸馏并非个别现象,而是在业界某种程度上存在的做法。支持者认为,这有助于降低AI开发成本,加速技术普及;批评者说,这种做法可能模糊创新与“搭便车”之间的界线,并对知识产权构成挑战。
当前,这项技术本身仍处于法律与伦理的灰色地带。陈凯欣博士对BBC中文说,蒸馏难以被简单归类为“技术窃取”,“因为它不涉及直接取得底层源码或模型参数,而且在AI公司和研究领域中,这本来就是常见做法”。
但他也説,在商业竞争中,情况相对复杂,“如果利用竞争对手投入大量资源训练的模型来改进自身产品,确实会引发公平性的质疑。”

从晶片封锁到模型能力之争
“AI蒸馏”之所以受到高度关注,与当前美中科技竞争的结构性变化密切相关。
近年来,美国与中国在科技领域的竞争持续升温,AI被普遍视为关键战略技术之一。从半导体、算力,到数据与算法,再到应用落地,竞争已经从单一环节扩展至整个技术体系。
其中,高端晶片一直是关键瓶颈。美国近年对中国实施了一系列出口管制,限制半导体与高端晶片流通,试图削弱中国在高性能计算与前沿AI模型方面的能力。由于大型AI模型高度依赖这类硬体,这些措施确实对产业带来影响。
但蒸馏技术的兴起,似乎正在改变这种竞争逻辑。
在算力受限的情况下,中国企业开始寻找替代路径,包括提升算法效率、优化模型架构,尝试降低对高端硬体的依赖。“AI蒸馏”正好符合这一需求。透过这项技术,即使算力有限,也能在一定程度上实现接近大型模型的效果。
换言之,竞争的焦点正在从谁拥有最强晶片,转向谁能更有效利用已有资源。
对中国而言,这提供了一条在限制条件下持续推进AI发展的路径。对美国而言,则带来新的挑战:即使限制硬体出口,也未必能完全阻止技术能力的扩散。
这种压力也反映在华盛顿近期的政策与立法动向中。美国两党参议员周一(5月4日)推出《人工智慧监管法案》(AI Overwatch Act),试图将先进AI晶片的出口限制上升至法律层面。发起人将当前局势形容为一场“AI军备竞赛”,明确指出要让美国“永久性地保留这些关键技术的所有权、监督权和战略利用权”。
在此背景下,蒸馏等技术的敏感性也随之上升。陈博士表示,美国的政策思路正在发生转变,其行动已从硬体扩展至演算法与数据领域,不再认为仅仅限制中国取得半导体晶片与设备就足够。
他表示,这反映出两国不同的发展策略。“美国倾向于投入资源打造更大、更强的模型,并视其为通往通用人工智慧的重要路径;中国则更重视效率和普及,透过分享、在彼此成果上持续建构的开源模式占据绝对主导地位。”

图像来源,Krisztian Bocsi/Bloomberg via Getty Images
“AI蒸馏”影响究竟有多大?
在政策和企业层面,紧张关系也日益升高。OpenAI、Anthropic、谷歌等美国顶尖科技公司,表示观察到异常的“大规模”模型调用行为,可能与蒸馏训练有关。中国人工智慧公司“深度探索”(DeepSeek)和“月之暗面”(Moonshot AI)等公司被指责透过自动化脚本,对美国模型进行了数百万次对话查询。
在此之前,DeepSeek等中国企业因推出成本较低、但性能接近高端模型的产品而受到关注。北京强调,技术进步来自持续投入和工程创新。支持者认为,这体现了效率和优化能力提升;批评者则质疑,这种低成本优势是否部分依赖于蒸馏等方法。
咨询公司DGA Group合夥人、中美科技政策专家保罗·特里奥洛(Paul Triolo)对BBC中文说,美国的关注已从硬体延伸至模型、数据与算法本身,特别是在涉及潜在安全风险的能力时,监管态度更趋审慎。
他指出,目前的核心问题在于,缺乏明确的方法来评估蒸馏的影响。“外界很难量化,在中国开源模型的基准测试表现中,究竟有多少是来自于对Claude/GPT的蒸馏,又有多少来自强化学习、架构设计、算力与数据品质等。”
他说,要对此问题给出可靠的答案,必须依赖资讯披露、审计或平台内部测试数据,而这些资讯目前多数并不公开。
这也引出一个潜在问题:当AI能力可以被快速复制与转移,既有的技术领先优势能维持多久?而现有的监管与知识产权框架,是否能跟上这种技术扩散的速度?