LLM-as-a-Judge · 领域演化图谱 · field trajectory

判官天文台

如何 · 如何 · 如何 · 如何 · 走向多模态 FROM THE TRANSFORMER & PROMPTED GPT-4 TO REPRESENTATION-AS-A-JUDGE — AN EVALUATOR PARADIGM INSIDE THE SCALING ERA

01 · The Map

六个时代 × 五条轴

横轴是时间(2020 → 2026),纵轴是 judge 演化的五条正交主线。每个圆点是一篇经核验的论文;✦ 发光星标是作为起点的四篇种子论文,带橙环的是多模态「回声」。注意每条轴的橙环都集中在右侧——多模态总是晚一拍。 落位规则:节点按 arXiv 首次公开年份(真正进入领域、开始影响后续工作的时间)排,而非正式发表年份。所以 JudgeLM 落在 2023(arXiv v1, 2023-10),尽管它发表于 ICLR 2025;四篇种子同理(arXiv 2023–24 → 2025 发表)。这样因果弧才不会断裂。

02 · The Currents

演化主弧

领域不是平移,而是一连串「上一代催生下一代」的转折。每条弧的终点(金色)都是种子论文或当前前沿。

03 · The Narrative

趋势长文

04 · The Bigger Picture

宏观:大模型的 scaling 弧线,与 judge 的位置

把镜头拉远——从 2017 年的 Transformer 到今天,整条主线是不断 scaling-up、不断要更多算力:先堆参数与数据(训练时算力),再堆推理步数与验证(推理时算力)。judge / 奖励模型 / 验证器始终嵌在这条曲线里:它既是让算力变成对齐的信号,又是推理时挑出最优解的验证器,最后因为自己太贵而催生了高效白盒小模型 judge 的反潮。

05 · Landed in Industry

宏观:业界落地在哪

judge 早已不是论文里的概念——它已是工业界的评估基础设施:从训练前沿模型的奖励信号、到云厂商内建的自动评估、到安全审核与推理验证器。下面每个例子都经过 web 核验(点击跳转官方页面)。

06 · Riding the Trend

缺口 × 顺势机会

左侧是领域尚未跨过模态线的结构性缺口;右侧是与之对应、顺着最强趋势的多模态切入点(一组方向,非单一 idea)。标 建议主攻 的那条,正是把文本侧最新的白盒/表征式判断搬进多模态——也正好接住上面 scaling 弧线末端的「高效 judge」反潮。

尚未跨过模态线的缺口 / GAPS
顺势而为的切入点 / OPPORTUNITIES