评测
为什么要评测模型
评测作用域
在组织感知部署中,评测结果和排行榜应结合当前管理作用域来理解。全局管理员可以在 Global 下查看全实例模式,而组织级评测活动则属于当前选中的组织。
想象一下,一位中型公司的机器学习工程师 Alex 面对 GPT、LLaMA 以及更多模型时,最现实的问题不是“哪个模型在公开榜单上排第一”,而是“哪个模型最适合我们手头的实际工作”。公开 leaderboard 往往不针对你的具体场景,而且一些模型甚至可能在评测集上做过针对性训练。更不用说,有些模型虽然分数高,但表达风格根本不适合团队。
OPL 数据空间的评测能力就是为了解决这个问题。它让你和团队用真实工作场景中的交互