LLM-as-a-Judge · 领域演化图谱 · field trajectory

判官天文台

如何造 · 如何信 · 如何评 · 如何用 · 走向多模态 FROM THE TRANSFORMER & PROMPTED GPT-4 TO REPRESENTATION-AS-A-JUDGE — AN EVALUATOR PARADIGM INSIDE THE SCALING ERA

01 · The Map

六个时代 × 五条轴

横轴是时间（2020 → 2026），纵轴是 judge 演化的五条正交主线。每个圆点是一篇经核验的论文；✦ 发光星标是作为起点的四篇种子论文，带橙环的是多模态「回声」。注意每条轴的橙环都集中在右侧——多模态总是晚一拍。 ⚙ 落位规则：节点按 arXiv 首次公开年份（真正进入领域、开始影响后续工作的时间）排，而非正式发表年份。所以 JudgeLM 落在 2023（arXiv v1, 2023-10），尽管它发表于 ICLR 2025；四篇种子同理（arXiv 2023–24 → 2025 发表）。这样因果弧才不会断裂。

02 · The Currents

演化主弧

领域不是平移，而是一连串「上一代催生下一代」的转折。每条弧的终点（金色）都是种子论文或当前前沿。

03 · The Narrative

趋势长文

04 · The Bigger Picture

宏观：大模型的 scaling 弧线，与 judge 的位置

把镜头拉远——从 2017 年的 Transformer 到今天，整条主线是不断 scaling-up、不断要更多算力：先堆参数与数据（训练时算力），再堆推理步数与验证（推理时算力）。judge / 奖励模型 / 验证器始终嵌在这条曲线里：它既是让算力变成对齐的信号，又是推理时挑出最优解的验证器，最后因为自己太贵而催生了高效白盒小模型 judge 的反潮。

05 · Landed in Industry

宏观：业界落地在哪

judge 早已不是论文里的概念——它已是工业界的评估基础设施：从训练前沿模型的奖励信号、到云厂商内建的自动评估、到安全审核与推理验证器。下面每个例子都经过 web 核验（点击跳转官方页面）。

06 · Riding the Trend

缺口 × 顺势机会

左侧是领域尚未跨过模态线的结构性缺口；右侧是与之对应、顺着最强趋势的多模态切入点（一组方向，非单一 idea）。标 建议主攻 的那条，正是把文本侧最新的白盒/表征式判断搬进多模态——也正好接住上面 scaling 弧线末端的「高效 judge」反潮。

尚未跨过模态线的缺口 / GAPS

顺势而为的切入点 / OPPORTUNITIES