首页 > 今日新闻 > 今日新闻 > DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

发布时间:2026-02-11 18:03:10

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。

究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens

针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为 ICLR 2026 Oral 的新工作中联合提出了一种全新的 TI-DPO 框架。



 

  • 论文:《Token-Importance Guided Direct Preference Optimization》
  • 论文地址:https://arxiv.org/abs/2505.19653
  • 开源地址:https://github.com/gracefulning/TIDPO

 

研究背景与意义

主流方法正面临两个核心难题,这使得模型难以实现真正精细化的语义控制:

 

  • 痛点一:序列级的「二元对立」陷阱。传统方法依然停留在序列级别(Sequence-level)的粗粒度优化上,简单粗暴地将数据划分为好与坏。这种二元监督信号极度匮乏,因为它掩盖高质量回复中可能混杂着瑕疵 Token 的事实,导致了模型在连续语义空间中微调效果差,甚至引发采样分布偏移(Distribution Shift)。
  • 痛点二:被偏差绑架的「伪」重要性。即使试图下沉到 Token 级别,现有的重要性评估手段也存在问题。许多方法依赖概率预测或简单加权,这导致它们直接继承了模型架构的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生倾向于过度关注首尾 Token 而忽略中间的核心语义。

 

TI-DPO 的核心机制

TI-DPO 的核心思想是:既然 Token 生而不同,那就给它们「加权」。 通过引入混合加权机制和三元组损失,TI-DPO 能够精准识别并放大「关键 Token」的信号,同时抑制噪声,从而实现比传统 DPO 更准、更稳的对齐效果。它主要包含两大核心机制:

1. 混合加权机制 (Hybrid Weighting)

为了找出谁才是决定回复质量的「胜负手」,TI-DPO 设计了一套数据驱动与先验结构相结合的权重计算法:

 

  • 梯度归因:计算 Loss 对每个 Token Embedding 的梯度范数。简单来说,谁对最终输出贡献大,谁的权重就高。
  • 高斯先验:针对 LLM 常见的「U 型注意力偏差」(过度关注开头结尾),引入高斯分布强制模型关注中间的语义核心。

 

最终的 Token 权重 ,是这两者的凸组合:

今日新闻更多>>

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙 机构:2025年12月全球手机平均内存8.4GB创新高 酷比魔方在线询问,平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身:采用6.57英寸直屏+骁龙8至尊版 卢伟冰已抵达巴塞罗那!小米大招来了:手机、汽车和AI都有惊喜 马斯克要把数据中心搬上太空!黄仁勋:没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路,春运成智能驾驶最佳普及时机 | 电厂 刚刚,魅族正式回应:手机不会没,全力押宝AI,“煤油”评论区挥泪告别 美团推出“饭团漫社”,布局漫剧赛道 DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 马斯克xAI雪崩!24小时两联创离职,一月内连失三位华人创始人 AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? 马斯克xAI再失联合创始人,12人创始团队已有6人离场 马斯克最新内部讲话:先上月球放卫星,再去火星 长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司 港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣,未来到底在拼什么? AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? Nothing Headphone (a)头戴式耳机被曝3月将上市,价格亲民 消息称内存芯片涨价致部分厂商暂停下代旗舰研发 苹果CEO库克:今年将展现前所未见的创新 英特尔代工iPhone芯片没戏了!行业人士揭开背后原因 小米Civi 6突然曝光:6.59英寸+中高端定位,上半年发布! 阶跃星辰发布开源基座 模型Step 3.5 Flash 顺丰“人格分裂”:一手砸钱扩版图,一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻?中国动真格了 告别磁吸壳!三星Galaxy S26全系手机标配Qi2磁吸充电