评测

为什么要评测模型

评测作用域

在组织感知部署中，评测结果和排行榜应结合当前管理作用域来理解。全局管理员可以在 Global 下查看全实例模式，而组织级评测活动则属于当前选中的组织。

想象一下，一位中型公司的机器学习工程师 Alex 面对 GPT、LLaMA 以及更多模型时，最现实的问题不是“哪个模型在公开榜单上排第一”，而是“哪个模型最适合我们手头的实际工作”。公开 leaderboard 往往不针对你的具体场景，而且一些模型甚至可能在评测集上做过针对性训练。更不用说，有些模型虽然分数高，但表达风格根本不适合团队。

OPL 数据空间的评测能力就是为了解决这个问题。它让你和团队用真实工作场景中的交互来评估模型，不需要复杂数学，也不需要额外标注平台，只要在正常使用里点赞或点踩即可。

TL;DR

为什么评测重要：模型很多，但不是每个都适合你的业务
如何解决： OPL 数据空间内置评测系统，用点赞/点踩给回答打分
背后发生什么：评分会调整排行榜，被评分的会话还会被快照保存，作为未来微调与训练素材
两种评测方式：
- Arena Model：随机选择模型进行公平对比
- Normal Interaction：像平常一样聊天并打分

为什么公开评测不够

Public榜单通常不针对你的用例
某些模型可能见过评测数据，公平性存疑
有些模型整体表现不错，但表达风格、语气或回答结构并不符合团队预期

OPL 数据空间的解决方案：个性化评测

OPL 数据空间内置了评测系统，让团队在正常交互中就能逐步找出最适合自己的模型。

它的工作方式很简单：

在聊天中，如果你喜欢一个回答就点 thumbs up，不满意就点 thumbs down
如果当前消息存在 sibling message（例如重新生成的备选答案，或多模型并排回答中的另一个结果），你的反馈就会进入排行榜计算
排行榜位于管理界面中，你可以随时查看团队视角下哪些模型表现最好

更进一步的是：每次你给回答评分，系统都会对这段会话做快照，用于后续模型优化或未来训练功能。

两种评测方式

1. Arena Model

Arena Model 会从可用模型池中随机选择模型，从而让对比更加公平、减少人为偏见。

使用方式：

在模型选择器里选择 Arena Model
像平常一样开始对话，但此时你处在“竞技场模式”

要让反馈影响排行榜，需要存在 sibling message。它可以是同一请求生成出的另一个候选回答，也可以是多个模型并排生成的回答。

评分规则提示：你给其中一个回答点赞时，另一个会自动被视为点踩
评分后，就可以去排行榜查看不同模型的相对表现

2. Normal Interaction

如果你不想切到 Arena，也可以照常使用 OPL 数据空间，在日常聊天里为回答点赞/点踩。

不过，如果你希望反馈真正参与排行榜排序，那么你仍然需要切换模型并形成 sibling response。只有两个不同模型之间形成可比较回答时，系统才能把它作为评测样本纳入排名。

排行榜

评分后，可以在 管理员面板 中查看 Leaderboard。这里会用 Elo Rating 来给模型排序，帮助你真实观察哪些模型在团队的实际使用里更胜一筹。

模型活动追踪

除了整体 Elo 分数之外，你还可以查看模型的 Model Activity Chart：

用正负方向展示模型在不同时间段的赢/输情况
支持 30 天、1 年、全部时间
在更长时间范围下自动按周聚合，帮助你看到更平滑的趋势

点击排行榜中的某个模型，就可以打开对应的详细弹窗查看这些信息。

话题标签与重排序

给聊天打分时，你还可以为这次会话添加主题标签，例如：

customer service
creative writing
technical support

OPL 数据空间也会尝试自动打标签，但自动标签不一定总是准确。对重要评测，建议人工补充标签。

这样做的价值在于：你可以按特定领域重新排序模型。例如某个模型在通用问题上一般，但在技术支持问题上表现特别好。

聊天快照与未来微调

每次给模型回答打分时， OPL 数据空间都会捕获这段聊天的快照。这些快照未来可以成为：

模型微调的数据基础
内部评测集的种子
特定团队偏好的反馈资产

这部分能力仍在持续完善中，但方向已经明确：让你的评测反馈持续反哺模型质量。

总结

OPL 数据空间的评测系统核心目标有两个：

让你更容易比较模型
帮你找到最适合自身场景的模型

无论你使用 Arena Model，还是在日常聊天里打分，这套机制都旨在让模型评测变得简单、透明、可定制。默认情况下，所有评测数据都保留在你的实例内部，除非你主动选择把它共享到社区。

为什么要评测模型​

TL;DR​

为什么公开评测不够​

OPL 数据空间的解决方案：个性化评测​

两种评测方式​

1. Arena Model​

2. Normal Interaction​

排行榜​

模型活动追踪​

话题标签与重排序​

聊天快照与未来微调​

总结​