什么是AI蒸馏:一项关键技术为何成为中美科技竞争的新战场

人工智慧（AI，人工智能）竞赛持续升温，一项原本属于工程优化的技术——AI蒸馏（AI distillation，又称知识蒸馏）——正迅速走向地缘政治前线，成为美中科技竞争中的新焦点。

过去几周，围绕这项技术的争议明显升温。美国政府和部分大型科技公司指控，一些中国企业透过蒸馏技术“复制”美国的先进AI模型能力；中国则反驳相关说法，强调技术进步来自自主研发，并质疑指控带有政治动机。原本偏向工程与研究的技术问题，正逐步升级为涉及知识产权、竞争公平与国家安全的议题。

美国总统特朗普周一（5月4日）表示，预计将于本月稍后与中国国家主席习近平会面，并称会提醒对方美国在AI领域保持领先地位。在白宫举行的小型企业峰会上发表演说时，特朗普将双方科技竞争形容为既具竞争但仍保持友好的关系，显示AI已成为双边关系中的核心议题之一。

特朗普说：“我们已在人工智慧领域领先中国。两周后我将与习近平主席会晤。我很期待……我们之间存在着非常友好的竞争，但这实际上是一次非常重要的访问。”

美国布鲁金斯学会中国中心研究员陈凯欣（Kyle Chan）博士对BBC中文表示，美国的政策思路正在发生转变，“美国认为，只限制晶片与设备出口已经不够，相关行动已扩展到演算法与数据。”

什么是“AI蒸馏”？

要理解这场争议，首先需要回到蒸馏技术本身。

AI蒸馏建立在当前人工智慧的基本现实之上：性能最强的AI模型，往往也是最昂贵、最难部署的。

当前主流的大型语言模型系统，通常拥有数十亿甚至数千亿个参数，比如OpenAI与Anthropic开发的模型，之所以能够处理复杂语言任务，很大程度依赖于庞大算力与高端晶片支撑，其训练与运行成本极高。

在这样的条件下，AI蒸馏提供了一条不同的技术路径。

它的核心原理，是用一个性能强大的“教师模型”，对大量任务生成结果，再用输出的结果来训练一个教小的“学生模型”。与传统大语言模型训练方式不同，“学生模型”不仅学习正确答案，还会学习“教师模型”对不同答案的判断方式。

举例来说，在传统训练中，AI模型只需判断一张图片是猫还是狗。但在蒸馏过程中，模型会学习各更细致的概率分布，比如“80%是猫、15%是狗、5%是其他动物”。这种资讯能帮助“学生模型”掌握更完整的决策逻辑。

因此，一个较小的模型，往往能在成本更低的情况下，达到接近大型模型的效果。它并不是从零开始学习，而是建立在既有模型能力之上的“二次学习”。

这种技术正在加速AI技术的传播。一旦强大模型被开发出来，它的能力可以透过蒸馏技术，被转移到多个较小的模型中，加速商业化和跨场景应用。这使得AI能力不再局限于少数科技巨头，可能更快进入市场，甚至跨越国界。

AI业界的质疑

近日，马斯克（Elon Musk）在一场涉及OpenAI的诉讼案庭审中承认，其旗下人工智慧公司xAI在训练模型时“部分”使用了OpenAI模型的输出进行蒸馏。他直言：“一般来说，所有AI公司都这么做”。

这一表态显示，利用其他模型进行蒸馏并非个别现象，而是在业界某种程度上存在的做法。支持者认为，这有助于降低AI开发成本，加速技术普及；批评者说，这种做法可能模糊创新与“搭便车”之间的界线，并对知识产权构成挑战。

当前，这项技术本身仍处于法律与伦理的灰色地带。陈凯欣博士对BBC中文说，蒸馏难以被简单归类为“技术窃取”，“因为它不涉及直接取得底层源码或模型参数，而且在AI公司和研究领域中，这本来就是常见做法”。

但他也説，在商业竞争中，情况相对复杂，“如果利用竞争对手投入大量资源训练的模型来改进自身产品，确实会引发公平性的质疑。”

从晶片封锁到模型能力之争

“AI蒸馏”之所以受到高度关注，与当前美中科技竞争的结构性变化密切相关。

近年来，美国与中国在科技领域的竞争持续升温，AI被普遍视为关键战略技术之一。从半导体、算力，到数据与算法，再到应用落地，竞争已经从单一环节扩展至整个技术体系。

其中，高端晶片一直是关键瓶颈。美国近年对中国实施了一系列出口管制，限制半导体与高端晶片流通，试图削弱中国在高性能计算与前沿AI模型方面的能力。由于大型AI模型高度依赖这类硬体，这些措施确实对产业带来影响。

但蒸馏技术的兴起，似乎正在改变这种竞争逻辑。

在算力受限的情况下，中国企业开始寻找替代路径，包括提升算法效率、优化模型架构，尝试降低对高端硬体的依赖。“AI蒸馏”正好符合这一需求。透过这项技术，即使算力有限，也能在一定程度上实现接近大型模型的效果。

换言之，竞争的焦点正在从谁拥有最强晶片，转向谁能更有效利用已有资源。

对中国而言，这提供了一条在限制条件下持续推进AI发展的路径。对美国而言，则带来新的挑战：即使限制硬体出口，也未必能完全阻止技术能力的扩散。

这种压力也反映在华盛顿近期的政策与立法动向中。美国两党参议员周一（5月4日）推出《人工智慧监管法案》（AI Overwatch Act），试图将先进AI晶片的出口限制上升至法律层面。发起人将当前局势形容为一场“AI军备竞赛”，明确指出要让美国“永久性地保留这些关键技术的所有权、监督权和战略利用权”。

在此背景下，蒸馏等技术的敏感性也随之上升。陈博士表示，美国的政策思路正在发生转变，其行动已从硬体扩展至演算法与数据领域，不再认为仅仅限制中国取得半导体晶片与设备就足够。

他表示，这反映出两国不同的发展策略。“美国倾向于投入资源打造更大、更强的模型，并视其为通往通用人工智慧的重要路径；中国则更重视效率和普及，透过分享、在彼此成果上持续建构的开源模式占据绝对主导地位。”

图像来源，Krisztian Bocsi/Bloomberg via Getty Images

“AI蒸馏”影响究竟有多大？

在政策和企业层面，紧张关系也日益升高。OpenAI、Anthropic、谷歌等美国顶尖科技公司，表示观察到异常的“大规模”模型调用行为，可能与蒸馏训练有关。中国人工智慧公司“深度探索”（DeepSeek）和“月之暗面”（Moonshot AI）等公司被指责透过自动化脚本，对美国模型进行了数百万次对话查询。

在此之前，DeepSeek等中国企业因推出成本较低、但性能接近高端模型的产品而受到关注。北京强调，技术进步来自持续投入和工程创新。支持者认为，这体现了效率和优化能力提升；批评者则质疑，这种低成本优势是否部分依赖于蒸馏等方法。

咨询公司DGA Group合夥人、中美科技政策专家保罗·特里奥洛（Paul Triolo）对BBC中文说，美国的关注已从硬体延伸至模型、数据与算法本身，特别是在涉及潜在安全风险的能力时，监管态度更趋审慎。

他指出，目前的核心问题在于，缺乏明确的方法来评估蒸馏的影响。“外界很难量化，在中国开源模型的基准测试表现中，究竟有多少是来自于对Claude/GPT的蒸馏，又有多少来自强化学习、架构设计、算力与数据品质等。”

他说，要对此问题给出可靠的答案，必须依赖资讯披露、审计或平台内部测试数据，而这些资讯目前多数并不公开。

这也引出一个潜在问题：当AI能力可以被快速复制与转移，既有的技术领先优势能维持多久？而现有的监管与知识产权框架，是否能跟上这种技术扩散的速度？

用户发布内容分享，若违规侵权，请联系我们核实删除

User-generated content. For violations or DMCA, contact us for removal