复制成功

分享至

主页 > 数字货币 >

新晋大模型动不动声称超越GPT-4,我们整理了这些评测工具

2023.10.24

文章来源:AI先锋官

新晋大模型动不动声称超越GPT-4,我们整理了这些评测工具

图片来源:由无界AI生成

自ChatGPT问世以来,全球掀起了大模型的“军备竞赛”。据报道,今年1-7月国内共发布了64个大模型。截至2023年7月,中国累计有130个大模型问世。

“百模大战”都不足以形容如今的焦灼“战况”,那么究竟哪家大模型更胜一筹呢?这就离不开大模型的评测。

然而,现阶段并不存在一个公认有效的评测方式,这就导致国内外的大模型评测领域出现“榜单大战”。不完全统计,目前市面上的评测工具(系统)不下50个,同类榜单的结果却可以千差万别。公众关于“刷分”的质疑更是不绝于耳。

业界一般认为,评价一款大模型有两个显化标准:一是参数量,二是评测集。

所谓参数量,是指模型中可学习的参数数量,包括模型的权重和偏置。参数量的大小决定了模型的复杂程度,更多的参数和层数,是大模型区别于小模型的标志性特点。2022年,美国一批大模型亮相,从Stability AI发布由文字到图像的生成式模型Diffusion,再到OpenAI推出的ChatGPT,模型参数规模开始进入百亿、千亿级别时代。

从表面指标看,千亿参数的模型普遍比百亿级表现更好。不过这也不绝对,堆参数也未必就能提升能力。那么,同样参数级别的模型应该如何分辨优劣?这就需要引入大模型的第二个评测维度——评测集。

评测集是为有效评估基础模型及其微调算法在不同场景、不同任务上的综合效果,所构建的单任务或多任务的统一基准数据集,有公开和封闭两种形态。

这些评测集就像针对不同领域的考卷,通过测试大模型在这些“考卷”中的得分,人们可以更直观地比较大模型的性能高低。

在小模型时代,大多数模型机构都会使用学术类评测集效果来作为评判模型好坏的依据。现在,大模型厂商也开始更加主动地参与到学术界基准测试框架中来,视其为权威背书与营销依据。

市面上已出现不少大模型的评测集,例如国际上用的较多的大模型评测集MMLU、中文评估模型C-Eval、SuperCLUE等。


-1- 评测工具


MMLU

全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

论文地址:

https://arxiv.org/abs/2009.03300

官方网站: 

https://paperswithcode.com/dataset/mmlu

大模型排行榜: 

https://paperswithcode.com/sota/multi-task-anguage-understanding-on-mmlu

C-Eval

C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。

论文地址:

https://arxiv.org/abs/2305.08322

项目地址:

https://github.com/SJTU-LIT/ceval

官方网站:

https://cevalbenchmark.com/

SuperCLUE

中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。

其中基础能力能力包括: 语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力包括: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

项目地址:

https://github.com/CLUEbenchmark/SuperCLUE

官方网站:

https://www.cluebenchmarks.com/

SuperCLUE琅琊榜

中文通用大模型匿名对战评价基准,与ChatbotArena相同以众包方式让不同的大模型产品进行匿名、随机的对抗测评,结果基于Elo评级系统。

项目地址:

https://github.com/CLUEbenchmark/SuperCLUElyb

Chatbot Arena

ChatbotArena是一个大型语言模型 (LLM) 的基准平台,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

以众包方式进行匿名随机对战的LLM基准平台。通过demo体验地址进入对战平台。输入自己感兴趣的问题,提交问题后,匿名模型会两两对战,分别生成相关答案,需要用户对答案做出评判,从4个评判选项中选择一个:模型A更好、模型B更好、平手、都很差。支持多轮对话。最终使用Elo评分系统对大模型的能力进行综合评估。(可以自己指定模型看效果,但不计入最终排名情况)。

项目地址:

https://github.com/lm-sys/FastChat

官方网站:

https://chat.lmsys.org/

FlagEval

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier