当前位置:首页>滚动 > >正文

【独家焦点】AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型

  • 2023-06-07 21:45:58来源:中国网财经

随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。

2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?

综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT


(资料图片仅供参考)

近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。

“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。

全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:

由伯克利加州大学等高校构建的多任务考试评测集MMLU;

微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);

由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;

以及由复旦大学研究团队构建的高考题目评测集Gaokao;

实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。

“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。

虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

四个综合性考试评测数据集结果

MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。

细分科目结果如下表所示。

(图中粗体表示结果最佳,下划线表示结果第二)

AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。

这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。

下列表格中,带GK的是中国高考科目。

(图中粗体表示结果最佳,下划线表示结果第二)

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。

它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。

测试结果可以通过leaderboard获得。

Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。

在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。

分项评测:阅读理解、推理能力表现出色

为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。

结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。

知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。

阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。

中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。

多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。

数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。

编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。

此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。

(以上图片由商汤科技授权中国网财经使用)

标签:

延伸阅读

推荐阅读

【独家焦点】AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型

随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度

为健康护航!高考期间的饮食清单来了

人民网北京6月7日电(记者孙红丽)考试期间考生的饮食问题,也是广大考

3部作品获第十三届中国舞蹈“荷花奖”古典舞奖

新华社北京6月4日电(记者王思北)记者从中国舞蹈家协会获悉,第十三届中

ST鹏博士(600804)6月7日14点45分触及涨停板

6月7日盘中消息,14点45分ST鹏博士(600804)触及涨停板。目前价格5 52

面对GPT,教育也到了转变之时 环球观天下

随着ChatGPT的火爆,其对教育理念和方式的冲击引起了广泛讨论,也让人

试用期被辞退有工资补偿吗? 即时焦点

在劳动法中,经济补偿金是用人单位解除劳动合同时,给予劳动者的经济补

天天百事通!中国5月末黄金储备6727万盎司,为连续第7个月增加黄金储备

中国5月末黄金储备6727万盎司,4月末为6676万盎司,为连续第7个月增加

焦点简讯:河北省张家口市万全区卫健局:培训预防接种人员 加强预防接种管理

为加强预防接种管理,保障预防接种工作安全、有序开展,近日,河北省张

高淳阳江镇:保护生态环境 共创文明家园

在世界环境日期间,为营造绿色、干净、文明的辖区人居环境,着力为民办

【基层工作者】洛江区双阳街道:以真心真情服务民情_全球最资讯

【基层工作者】洛江区双阳街道:以真心真情服务民情

黄金9995价格今天多少一克(2023年6月7日)-速递

黄金9995价格今天多少一克(2023年6月7日)

【世界报资讯】男孩背脑瘫同学10年今天一起高考:希望还能继续同窗

现就读于江西省南康中学北校区高三的钟华强,患有先天性脑瘫,双腿无法

手机问题:vivoS9e怎么隐藏应用

科技、数码、互联网新闻如今都成为了大众所关注的热点了,因为在我们的

【世界时快讯】室外庭院地砖铺哪种好看_室外庭院地砖

1、院子地板所选择的地砖与室内的地砖是不一样的,铺设院子最好用剁石

黄金首饰价格今天多少一克(2023年6月7日)

黄金首饰价格今天多少一克(2023年6月7日)

天天热推荐:前浙江女首富周晓光败于多元化

之后,她与丈夫合力投资700万创办了自己的饰品厂新光饰品公司,并将其

直击高考首日!九江少年,加油!

今天是2023年高考第一天九江62351名考生在全市27个考点1920个考场参加

天天快看点丨美媒:乌克兰密谋袭击“北溪” 且美国提前知情

来自欧洲情报机构的信息显示,乌克兰在“北溪”管道发生水下爆炸前曾有

天天头条:2023年江苏省养老金调整最新方案在即,养老金3500元及以上,涨200元很简单吗?

距离2023年养老金调整方案的公布时间,刚好过去了15那天,而人社部和有

澳柯玛(600336)6月7日主力资金净买入96.02万元 每日讯息

截至2023年6月7日收盘,澳柯玛(600336)报收于5 46元,下跌0 36%,换手

斯宾塞祝贺《暗黑4》发售 开服后爽玩了18小时!-观焦点

今日,Xbox老板菲尔·斯宾塞发文祝贺《暗黑破坏神4》发售:祝贺RodFerg

9000亿动力电池巨头突发利空,大跌近6%!降息?有分歧

今日早盘,A股小幅震荡,上证指数围绕3200点反复争夺,创业板指则连续

全球热消息:新友谊大酒店聘客房服务员_新友谊大酒店

1、您好,为您查询到:洛阳新友谊大酒店酒店按四星级标准建造的地址:

焦点关注:动力源(600405)6月7日主力资金净卖出907.76万元

截至2023年6月7日收盘,动力源(600405)报收于5 68元,下跌0 7%,换手率

今日热讯:2023国民视觉健康论坛在京举行

人民网北京6月7日电(记者孙红丽)6月6日,在第28个全国“爱眼日”来临

隆扬电子:6月6日融资买入252.47万元,融资融券余额4616.89万元

6月6日,隆扬电子(301389)融资买入252 47万元,融资偿还200 38万元,

2023全球工程机械制造商50强排行榜,中国十家上榜整体排名下降 | 榜一|快播报

工程机械信息提供商英国KHL集团旗下《国际建设》杂志(InternationalCon

高耀东老师书法作品集锦

顶端作家造星计划 我要上热榜 耕耘与收获 独立寒秋,湘江北去,橘子

热文:x和xs哪个好(x和xs的区别)

来为大家解答以上问题。x和xs哪个好,x和xs的区别这个很多人还不清楚,

中炬高新:公司坚持渠道下沉战略,向全国化布局 全球快资讯

每经AI快讯,有投资者在投资者互动平台提问:尊敬的董秘您好,贵公司的

猜您喜欢

Copyright ©  2015-2022 北极服装网版权所有  备案号:浙ICP备2022016517号-19   联系邮箱:514 676 113@qq.com