
哄哄模拟器Web版
进入不同场景之中,通过使用语言技巧和沟通能力,在限定次数内让对方原谅你
MMBench 评测榜单是一个开源模型、公开API模型及私有模型评测榜单平台,旨在全面衡量模型从基础感知到高级推理的综合能力。
核心内容:
1、评测目标:
MMBench主要解决传统模型评测中存在的多样性不足、主观性强、评估维度不细等问题。它致力于提供一个更稳定、更全面、可复现的评测标准。
2、评测维度:
第一级(L1):包含“感知”和“推理”两大核心能力。
第二级(L2):在L1的基础上扩展为6项能力。
第三级(L3):进一步细分为20个具体的能力维度,如目标检测、文字识别、动作识别、图像理解、关系推理等。 这种分级设计使得评测结果能更精确地反映模型在不同细分任务上的表现。
3、数据集与题目:
MMBench数据集包含了从互联网公开信息和权威基准中收集的约3000道单项选择题。为了保证评估的稳定性,每个L3能力维度下都收集了超过75道题目。
4、评测方法:
ChatGPT辅助评测:为了解决模型回答格式不统一的问题,评测流程引入了ChatGPT。当模型的回答没有直接对应选项时,会利用ChatGPT来判断其回答与哪个选项最相似,从而确定答案。这提高了评测的自动化和客观性。
CircularEval方法:这是一种创新的评测方式,通过循环重排问题的选项顺序并多次测试,只有当模型在所有重排情况下都回答正确,才算真正答对该题。这种方法能有效降低随机性,更好地揭示模型的真实性能。
5、榜单地位与影响:
MMBench被认为是中文乃至全球范围内重要的多模态大模型评测基准之一。它已被HuggingFace收录,并被上海人工智能实验室(Shanghai AI Lab)、南洋理工大学等机构联合推出或采用,成为衡量多模态模型性能的重要参考。