横轴是时间(2020 → 2026),纵轴是 judge 演化的五条正交主线。每个圆点是一篇经核验的论文;✦ 发光星标是作为起点的四篇种子论文,带橙环的是多模态「回声」。注意每条轴的橙环都集中在右侧——多模态总是晚一拍。
⚙ 落位规则:节点按 arXiv 首次公开年份(真正进入领域、开始影响后续工作的时间)排,而非正式发表年份。所以 JudgeLM 落在 2023(arXiv v1, 2023-10),尽管它发表于 ICLR 2025;四篇种子同理(arXiv 2023–24 → 2025 发表)。这样因果弧才不会断裂。
领域不是平移,而是一连串「上一代催生下一代」的转折。每条弧的终点(金色)都是种子论文或当前前沿。
把镜头拉远——从 2017 年的 Transformer 到今天,整条主线是不断 scaling-up、不断要更多算力:先堆参数与数据(训练时算力),再堆推理步数与验证(推理时算力)。judge / 奖励模型 / 验证器始终嵌在这条曲线里:它既是让算力变成对齐的信号,又是推理时挑出最优解的验证器,最后因为自己太贵而催生了高效白盒小模型 judge 的反潮。
judge 早已不是论文里的概念——它已是工业界的评估基础设施:从训练前沿模型的奖励信号、到云厂商内建的自动评估、到安全审核与推理验证器。下面每个例子都经过 web 核验(点击跳转官方页面)。
左侧是领域尚未跨过模态线的结构性缺口;右侧是与之对应、顺着最强趋势的多模态切入点(一组方向,非单一 idea)。标 建议主攻 的那条,正是把文本侧最新的白盒/表征式判断搬进多模态——也正好接住上面 scaling 弧线末端的「高效 judge」反潮。