腾讯混元团队最新研究：让 AI 从「固定模型」走向「实时适配系统」

原创郑佳美 2026-03-11 18:54 广东

!Image 1

HY-WU ：一种在推理阶段动态生成模型参数，而非依赖固定参数处理任务的方法。

!Image 2

HY-WU ：一种在推理阶段动态生成模型参数，而非依赖固定参数处理任务的方法。

作者丨郑佳美

编辑丨岑峰 **!Image 3**

很多机器学习系统在设计时都默认一个前提：模型一旦训练完成，其参数基本是固定的。

无论输入是什么样的数据，模型都会依赖同一套参数完成推理。这种范式在过去十多年里非常成功，模型能力的提升主要依赖更大的模型规模、更多的数据以及更长时间的训练。但当人工智能逐渐进入更加复杂的应用环境时，这种“固定参数”的方式也开始显现出局限。

现实任务往往具有高度多样性，不同用户需求、不同任务目标甚至可能彼此冲突。例如在图像编辑场景中，同一张图片可能会对应完全不同的修改要求。有的任务需要增强细节，例如去模糊或图像修复，而另一些任务则需要弱化细节，例如增加模糊效果或模拟老照片的老化过程。如果模型始终依赖同一套参数，它往往只能在不同目标之间做出折中，从而影响最终效果。

过去，研究人员通常通过 domain adaptation 或模型微调来缓解这一问题。当模型进入新的领域时，需要重新训练或调整参数，使其适应新的数据分布。然而这种方式往往意味着额外训练成本，同时也增加了系统部署和维护的复杂度。那么有没有机会做到实时adaptation？

在这样的背景下，腾讯混元团队提出了论文《HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing》。

这项研究尝试改变模型适应任务的方式：让模型在推理阶段根据当前输入实时动态生成适合该任务的参数，而不是始终依赖一套固定参数。通过这种机制，同一个基础模型在面对不同任务时可以表现出不同的行为模式，从而实现更加灵活的实时适配能力。

!Image 4

_论文地址：_ _https://arxiv.org/pdf/2603.07236_

!Image 5: 图片 01 一个模型，多种行为 ---------------------

研究通过多种实验验证了一个核心观点：如果模型能够针对每个输入动态生成参数，而不是始终使用一套固定参数，那么在复杂任务中会表现得更好。为验证这一点，研究人员设计并开展了四类实验。

首先是人类评测实验。研究团队进行了大规模人工评测。评测流程是：在同一输入图片和编辑指令的条件下，让不同模型分别生成编辑结果，然后由人类评审在两个结果之间选择更好的一个，并统计最终的胜率。

结果显示，HY-WU 在多个主流模型对比中具有明显优势。例如，对 Step1X-Edit 的胜率约为 78.4%，对 Qwen-Image-Edit 的胜率约为 70.5%，对 LongCat-Image-Edit 的胜率约为 68.3%，对 FLUX.2 的胜率约为 55.5%。在与部分闭源商业系统比较时，对 Seedream 4.5 的胜率约为 55.6%，对 GPT Image 1.5 的胜率约为 55.5%。与最先进的商业系统 Nano Banana 系列相比，HY-WU 的表现略微落后，但整体差距不大。这些结果表明，通过动态生成参数的方式，在视觉编辑效果上具有明显优势。

!Image 6

其次是自动评测实验。除了人工评测，研究人员还设计了自动评估系统 WU-Eval。该系统从四个维度对图像结果进行评价，包括指令对齐、内容一致性、结构合理性以及图像质量。

实验结果显示，HY-WU 在这些指标上取得了最高的总体得分 4.27，其中 consistency 为 4.13，structure 为 4.30，quality 为 3.98。与最强的开源模型相比，consistency 提高约 0.27，structure 提高约 0.23。这些结果说明，通过动态生成参数的机制，可以显著提升图像编辑过程中的稳定性以及结构保持能力。

!Image 7

第三类实验是在公开 benchmark 上的评测。研究团队在两个公开图像编辑评测数据集上进行了测试。在 GEdit-Bench 上，HY-WU 在所有开源模型中排名第一；在 ImgEdit-Bench 上，HY-WU 的总体得分为 4.05，在开源模型中排名第二。这说明该方法不仅在内部实验中有效，在公开评测环境中同样具有较强竞争力。

!Image 8

第四类实验是冲突任务实验。研究人员设计了一组互相矛盾的编辑任务，用来测试模型在复杂条件下的表现。例如图像去模糊与图像模糊、图像恢复与图像老化等任务，这些任务在本质上具有相反的目标。

实验比较了三种不同策略。第一种是 Single LoRA，即为每个任务分别训练独立模型。实验结果显示，这种方法在对应任务上表现很好，但无法处理其他任务，说明模型出现过度专门化的问题。第二种是 Shared LoRA，即多个任务共享一个模型。实验结果显示，这种方式虽然可以处理所有任务，但效果明显被折中，例如在去模糊和模糊之间出现一种“半模糊”的结果。第三种是 HY-WU 方法，即针对每个输入动态生成不同参数。实验结果表明，在这种机制下，每个任务都能够被正确执行，而且不同任务之间不会互相干扰，这说明动态参数生成可以有效避免任务冲突问题。

!Image 9

!Image 10: 图片 02 一个模型，多套参数 ---------------------

在实验过程中，研究团队提出的 HY-WU 系统本质上是一种动态参数生成框架，其核心思想是让模型在推理阶段根据当前输入动态生成适合该任务的参数，而不再始终依赖一套固定参数来处理所有问题。传统模型在部署后通常使用同一组参数处理所有输入，而 HY-WU 的设计思路则不同，它通过一个额外的参数生成模块，使模型在面对不同输入时能够产生不同的参数配置，从而形成针对当前任务更加合适的计算方式。

在任务设置方面，研究人员将实验任务设定为文本指导图像编辑。在这一任务中，系统的输入包括两部分信息，一部分是一张原始图片，另一部分是一条描述编辑需求的文本指令。模型需要根据这两部分信息生成一张新的编辑结果图像。

为了保证编辑结果具有良好的可用性，任务目标包括三个方面。首先，模型必须正确执行文本指令中所描述的编辑操作，例如改变某个物体的属性或替换某个区域。其次，在执行编辑时需要保留与指令无关的重要内容，也就是说只修改需要改变的部分，而尽量保持其他区域不发生变化。

第三，生成图像需要保持整体结构的一致性，例如人物的姿态、空间关系或背景结构不能出现明显破坏。例如在一个典型场景中，输入是一张人物图片，同时给出一条指令要求将人物的衣服替换为另一张图中的衣服。在这种情况下，系统需要在改变衣服外观的同时保持人物身份特征、姿态以及背景环境不发生变化，使最终生成的图像看起来真实且自然。

!Image 11

在系统结构方面，HY-WU 系统可以分为三个主要阶段。第一阶段是条件信息提取阶段。在这一阶段中，系统分别从输入图像和文本指令中提取特征信息，并将两种模态的信息融合形成一个统一的条件表示。

这一条件表示描述了当前输入中包含的视觉内容以及用户所提出的编辑需求，是后续参数生成过程的重要依据。通过这种方式，系统能够理解当前图像中包含的对象、结构以及文本指令所要求的变化方向。

第二阶段是模型参数生成阶段。在这一阶段中，提取到的条件信息会被输入到一个基于 Transformer 架构的参数生成网络中。该网络的任务不是直接生成图像，而是根据输入条件生成一组新的模型参数，这些参数以 LoRA adapter 的形式存在。

LoRA adapter 是一种常见的参数高效更新方式，可以在不修改原始模型主体结构的情况下改变模型行为。通过这一机制，参数生成网络能够根据当前输入条件生成适合该任务的参数更新，从而使基础模型在执行推理时具备针对当前任务的能力。

第三阶段是执行图像编辑阶段。在这一阶段中，系统会将生成的 LoRA adapter 参数插入到基础模型中，使模型在当前输入条件下以新的参数结构运行。随后基础模型在这些参数的作用下完成图像生成或编辑过程，并输出最终结果。由于参数生成网络会针对每一个输入生成不同的参数，因此即使使用同一个基础模型，不同输入也会对应不同的参数配置。这意味着模型在处理不同任务时能够表现出不同的行为模式，从而提升整体适应能力。

!Image 12

在训练方式方面，HY-WU 采用了一种与传统方法明显不同的训练策略。传统方法在进行参数生成或适配研究时，通常需要先预先训练大量模型，然后再通过学习过程重建这些模型参数，从而训练一个能够生成参数的网络。这种方式不仅需要存储大量模型，还会带来较高的训练和数据管理成本。

与之相比，研究团队在 HY-WU 中采用了更加直接的训练方式。在训练过程中，系统首先输入图像和编辑指令，然后由参数生成网络根据输入条件生成对应的模型参数。接着系统利用这些参数在基础模型中生成编辑后的图像。随后根据生成结果与目标之间的差异计算损失，并根据损失结果更新参数生成网络。

整个训练流程可以概括为五个步骤，即输入图像和指令、生成模型参数、生成编辑图像、根据编辑效果计算损失以及更新参数生成网络。通过这种方式，系统能够直接围绕最终任务目标进行优化，同时避免存储和管理大量模型参数，从而降低训练过程中的复杂度，并使参数生成机制更加灵活。

!Image 13

!Image 14: 图片 03 一个模型，应对无限变化的任务 --------------------------

从技术层面来看，这项研究可以被理解为一种新的图像编辑方法，但如果从更宏观的角度进行分析，它实际上提出了一种新的模型适应方式。

传统模型通常依赖一套固定参数来处理所有任务，而现实世界的问题往往是多样且不断变化的。例如，不同用户需求可能完全不同，不同任务目标之间也可能存在明显差异，同时数据分布在不同场景中也会发生变化。在这种情况下，一套固定参数很难同时适应所有情况，因此模型在复杂环境中的表现往往受到限制。

在过去十几年中，机器学习领域通常通过 domain adaptation 来解决这一问题。当模型进入新的领域时，研究人员往往需要重新训练模型，或者通过微调的方式使模型适应新的数据分布。

这种方法确实可以在一定程度上提升模型在新领域中的表现，但其成本也相对较高。每进入一个新的领域通常都需要重新进行训练，系统部署过程会变得更加复杂，同时模型更新的周期也会变得较长。

随着模型规模的不断发展，研究人员开始探索另一种新的思路，即是否可以让模型在运行过程中自动适应任务，而不需要重新训练模型。在这一背景下，HY-WU 可以被看作这种思路的一种具体实现方式。与传统方法不同，这一方法学习的并不是一组固定的模型参数，而是学习如何根据当前输入生成合适的参数更新，从而让同一个基础模型在面对不同任务时能够表现出不同的行为模式。

!Image 15

从更抽象的角度来看，一个真正强大的模型需要具备两个关键能力。首先，模型必须具备 adaptation 能力，也就是说模型能够根据不同任务改变自己的行为方式，而不是始终使用同一种处理策略。

其次，这种 adaptation 必须是实时发生的。如果每一次适应都需要重新训练模型，那么系统在真实环境中的使用就会受到很大限制。因此，一个真正智能的系统不仅需要具备适应能力，还需要能够实现实时适应。

在这样的框架下，在这样的框架下，HY-WU 的核心意义不仅在于提升图像编辑任务中的性能，更重要的是，它实现了一种推理阶段的实时适应机制（real-time adaptation）。具体来说，模型在处理每一次输入时，都会根据当前图像和指令动态生成一组新的参数，使模型能够针对当前任务调整自身行为。

!Image 16

在这一机制下，模型在面对每一个输入时都会生成一组新的参数调整，从而使同一个基础模型能够在不同任务之间灵活切换，并表现出不同的行为模式。

从更长远的角度来看，这项研究也为未来人工智能系统的发展提供了一种新的方向。未来的 AI 系统可能不再依赖单一的固定模型，而是需要在运行过程中实时调整自身的参数结构，从而持续适应不断变化的任务环境和应用场景。

!Image 17

推荐阅读 ![Image 18](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247731936&idx=1&sn=6da40141c94ed23d5b8dc22b6c9f01c8&scene=21#wechat_redirect) ![Image 19](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247732029&idx=1&sn=3aef5a4eab981ee59aa6dc39fff7de85&scene=21#wechat_redirect)

!Image 20: 图片

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。 -------------------------------------------------------------------------------- 阅读原文跳转微信打开

腾讯混元团队最新研究：让 AI 从「固定模型」走向「实时适配系统」

🤖 問 AI