跳到主要内容

评测

为什么要评测模型

评测作用域

在组织感知部署中,评测结果和排行榜应结合当前管理作用域来理解。全局管理员可以在 Global 下查看全实例模式,而组织级评测活动则属于当前选中的组织。

想象一下,一位中型公司的机器学习工程师 Alex 面对 GPT、LLaMA 以及更多模型时,最现实的问题不是“哪个模型在公开榜单上排第一”,而是“哪个模型最适合我们手头的实际工作”。公开 leaderboard 往往不针对你的具体场景,而且一些模型甚至可能在评测集上做过针对性训练。更不用说,有些模型虽然分数高,但表达风格根本不适合团队。

OPL 数据空间的评测能力就是为了解决这个问题。它让你和团队用真实工作场景中的交互来评估模型,不需要复杂数学,也不需要额外标注平台,只要在正常使用里点赞或点踩即可。

TL;DR

  • 为什么评测重要:模型很多,但不是每个都适合你的业务
  • 如何解决: OPL 数据空间内置评测系统,用点赞/点踩给回答打分
  • 背后发生什么:评分会调整排行榜,被评分的会话还会被快照保存,作为未来微调与训练素材
  • 两种评测方式
    • Arena Model:随机选择模型进行公平对比
    • Normal Interaction:像平常一样聊天并打分

为什么公开评测不够

  • Public榜单通常不针对你的用例
  • 某些模型可能见过评测数据,公平性存疑
  • 有些模型整体表现不错,但表达风格、语气或回答结构并不符合团队预期

OPL 数据空间的解决方案:个性化评测

OPL 数据空间内置了评测系统,让团队在正常交互中就能逐步找出最适合自己的模型。

它的工作方式很简单:

  • 在聊天中,如果你喜欢一个回答就点 thumbs up,不满意就点 thumbs down
  • 如果当前消息存在 sibling message(例如重新生成的备选答案,或多模型并排回答中的另一个结果),你的反馈就会进入排行榜计算
  • 排行榜位于管理界面中,你可以随时查看团队视角下哪些模型表现最好

更进一步的是:每次你给回答评分,系统都会对这段会话做快照,用于后续模型优化或未来训练功能。


两种评测方式

1. Arena Model

Arena Model 会从可用模型池中随机选择模型,从而让对比更加公平、减少人为偏见。

使用方式:

  • 在模型选择器里选择 Arena Model
  • 像平常一样开始对话,但此时你处在“竞技场模式”

要让反馈影响排行榜,需要存在 sibling message。它可以是同一请求生成出的另一个候选回答,也可以是多个模型并排生成的回答。

  • 评分规则提示:你给其中一个回答点赞时,另一个会自动被视为点踩
  • 评分后,就可以去排行榜查看不同模型的相对表现

2. Normal Interaction

如果你不想切到 Arena,也可以照常使用 OPL 数据空间,在日常聊天里为回答点赞/点踩。

不过,如果你希望反馈真正参与排行榜排序,那么你仍然需要切换模型并形成 sibling response。只有两个不同模型之间形成可比较回答时,系统才能把它作为评测样本纳入排名。


排行榜

评分后,可以在 管理员面板 中查看 Leaderboard。这里会用 Elo Rating 来给模型排序,帮助你真实观察哪些模型在团队的实际使用里更胜一筹。

模型活动追踪

除了整体 Elo 分数之外,你还可以查看模型的 Model Activity Chart

  • 用正负方向展示模型在不同时间段的赢/输情况
  • 支持 30 天1 年全部时间
  • 在更长时间范围下自动按周聚合,帮助你看到更平滑的趋势

点击排行榜中的某个模型,就可以打开对应的详细弹窗查看这些信息。

话题标签与重排序

给聊天打分时,你还可以为这次会话添加主题标签,例如:

  • customer service
  • creative writing
  • technical support

OPL 数据空间也会尝试自动打标签,但自动标签不一定总是准确。对重要评测,建议人工补充标签。

这样做的价值在于:你可以按特定领域重新排序模型。例如某个模型在通用问题上一般,但在技术支持问题上表现特别好。


聊天快照与未来微调

每次给模型回答打分时, OPL 数据空间都会捕获这段聊天的快照。这些快照未来可以成为:

  • 模型微调的数据基础
  • 内部评测集的种子
  • 特定团队偏好的反馈资产

这部分能力仍在持续完善中,但方向已经明确:让你的评测反馈持续反哺模型质量。


总结

OPL 数据空间的评测系统核心目标有两个:

  1. 让你更容易比较模型
  2. 帮你找到最适合自身场景的模型

无论你使用 Arena Model,还是在日常聊天里打分,这套机制都旨在让模型评测变得简单、透明、可定制。默认情况下,所有评测数据都保留在你的实例内部,除非你主动选择把它共享到社区。