中国联通业界首次提出大模型能力边界量化基准,避免“高射炮打蚊子”情况

来源:金海游戏园 时间:2025-01-14 10:15:47

本站 12 月 27 日消息,据中国联通官方今日消息,该公司借鉴动物智能演化规律,结合大模型实际落地应用实践,在业界首次提出大模型能力边界量化基准,定量分析主流语言大模型能力边界,详细刻画模型参数量、模型能力与应用场景之间的关系,为语言大模型的应用选型提供理论和经验指导,将有助于降低语言大模型应用门槛。

相关研究成果以 为题发表在自然语言处理权威会议 NLPCC 2024 上,相应的评估基准已向业界开源。

借鉴动物智能演化规律

一般来说,动物的脑神经元越多,脑容量越大,智力水平就越高。另外,不同智力水平的动物擅长的任务种类和难度也各不相同,即使小如乌鸦的大脑,也可以完成“乌鸦喝水”这样的任务。

动物智能演化规律

相似地,在语言大模型中,扩展法则指出模型参数量越大,模型能力越强,相应的算法消耗和应用成本也越高。然而这样的定性分析是不够的,大模型能力边界定量刻画的缺乏,导致在实际应用中经常出现“高射炮打蚊子”的情况。因此对大模型能力边界的定量刻画是必要且紧迫的。

构建大模型能力评估基准

中国联通研究团队从实际应用场景维度出发,对语言大模型主要能力进行归纳、梳理和总结,建立了应用驱动的大语言模型能力评估基准。该评估基准包括文本生成、理解、关键信息抽取、逻辑推理、任务规划等 5 大类能力,又细分为 27 类子能力。

语言大模型主要能力

针对 27 类子能力,中国联通研究团队构建了相应的评测任务和由易、中、难三个难度等级的 678 个问答对构成的评估数据集。为避免数据泄露问题,所有数据均由专家团队人工编写。

应用驱动的语言大模型能力评估数据集

量化主流大模型能力边界

团队设计了专家评估和基于大模型的自动化评估方法,对同一家族 8 个不同规模的模型(0.5B、1.8B、4B、7B、14B、32B、72B、110B)进行测试和评估,避免模型架构、训练数据等非模型参数量因素对评估结果产生干扰,得到了不同参数量模型在各种任务上的可靠的评估结果。从下图的评测结果可以看出,不同参数量模型能力不同,模型参数量越大,模型能力越强,对于复杂任务需要使用大参数量模型。

不同参数量模型在各类任务中的准确率

依据能力要求确定模型参数量

根据语言大模型能力边界测评结果,团队提出了一种简单可行的模型选型方法,指导模型落地应用时的参数选型。总的来说,针对不同任务,任务难度越高要求参数越大;针对同一任务,参数越大模型性能越好。

具体地,可依据某项任务对模型性能的底线要求来选择相应参数的规模,以图中任务为例:

    在用户需求准确率为 80% 的前提下,对于拼写错误校正任务,14B 以上模型可获 90 分以上;

    对于逻辑错误检测任务,110B 以上模型可达 90 分以上;

    如果同时应用多个任务,先为每个任务选择合适的模型,再选择其中参数量最大的模型即可。

    选型过程中不需要用户对大模型有深入了解,这将降低用户选择使用大模型的门槛,促进大模型普惠化。

    模型参数量选择方法示例

    探索设计模型选型使用“说明书”

    在元景大模型应用落地中,中国联通基于上述评估基准,打造评估工具,量化 1B、7B、13B、34B 和 70B 等元景基础大模型的能力边界,并分别将其用于违规短信分类、投诉工单分类、客服助手、渔业知识问答、元景 App 问答等场景,提炼“模型参数量-模型能力-应用场景”关联关系(如下图),作为大模型使用“说明书”,集成到元景 MaaS 平台,为开发者提供选模型指引。

    模型参数量-能力-场景的对应关系图

    本站附论文链接:https://arxiv.org/abs/2406.10307

    评估基准:https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

精品推荐 更多+
  • 芸豆借款app官方下载链接
    芸豆借款app官方下载链接

    芸豆借款官方版是官网的最新版本,在芸豆借款app官方版本中,拥有着不同数额的贷款产品,而且还贷利息低,能够满足于大家借钱的需求,随时在线申请借贷,分期还款,减轻压力,整体平台非常稳定,快来下载吧!芸豆

    下载宝盒 01-09

  • 会玩透视插件免费版下载
    会玩透视插件免费版下载

    会玩透视插件免费版是一款可用于狼人杀的辅助app。在会玩透视插件免费版中,可以轻松得知对局中每个人的身份,只要辨明了这些身份,用户在游戏中就可以做到无往不利,轻松赢下比赛,有兴趣的朋友快来本站下载体验

    下载宝盒 01-08

  • 云燕云十六声
    云燕云十六声

    云燕云十六声是网易最新推出的武侠3A大作,以其生动立体的江湖场景和全新定义的武侠动作备受瞩目。玩家将扮演身处五代十国混乱时期的一名剑客,仗剑天涯,身怀十八般武艺。游戏中,种种武林绝学如狮吼功、葵花点穴

    下载宝盒 01-08

最新录入 更多+
  • Lemur狐猴浏览器安卓版下载

    Lemur狐猴浏览器是一款支持Chrome扩展插件和微软Edge扩展插件的浏览器。在Lemur狐猴浏览器中,全新Chromium高速内核引擎,极速体验搭配多种多样的扩展插件组合让你的浏览器个性十足,无

  • 全能计算器绿色版下载

    全能计算器绿色版是一款大家都在用的常用工具类软件,这款软件中有很多非常强大的功能,用户通过这款软件可以计算出很多很复杂的数学题目,还能帮助用户进行单位的换算,可以有效的帮助用户解决各种计算难题,为用户

  • 蛋播星球无广告

    蛋播星球无广告是一款很优质的影视剧观看服务软件,电影、电视剧、动漫、综艺想看什么都能满足,而且这里的影视剧第一时间更新全网最快,支持电视直播,电影解说等等,喜欢看剧追剧的各位千万不要错过。常见问题怎么

  • 一份礼物生成器原版

    一份礼物生成器生成恶趣味搞怪的一款生成器,用户可以在里面找到快乐,该软件下载安装之后可以让自己的手机一直发出声音,安装过后就再也停不下来了,非常不错呦。本站早已为您整理出不同版本的资源,喜欢的朋友们抓

  • wallpaper官网手机版下载

    wallpaper官方版每天都有超多壁纸可以体验哦,人工甄选的超好看壁纸任你来体验哦,静态、动态壁纸为你的手机争光添彩,导入导出照片更方便,还可以预览手机里的所有照片,便捷管理,其最大的好处是,只要有

热门推荐 更多+
  • 解读特殊语境下的“先吃‘姨妈’后吃‘妈妈’”表达在特定的语境或情境中,“先吃‘姨妈’后吃‘妈妈’”这样的表达方式并不直接指代字面上的亲属关系。这种表达方式可能是在某种特定文化、习惯或者特定情境下产生的

  • 成人91看片是当前网络上一种非常流行的观看方式,吸引了大量观众的目光。随着互联网技术的不断发展,用户对视频内容的需求也在不断增长。尤其是在成人娱乐这一领域,视频平台的多样化和便利性使得这种内容得到了快速的发展,成为了许多成人观众的首选。成人91看片作为其中一个代表,因其内容丰富、更新迅速以及相对较为开放的观看方式,成为了不少网友的日常观看选择。 成人91看片的特点 成人91看片的一个显著特点是内

  • 陪读装睡让他滑进去了这部电影,故事内容颇为新颖,主要讲述了一种特定的情感和亲密关系,往往是生活中不容易被讨论的主题。通过一系列的剧情冲突,影片探讨了人物之间的复杂心理与情感互动,吸引了很多观众的关注。电影的情节充满了戏剧性和意外,使得很多人对于其中的情感走向充满了疑问和思考。 情节背景与人物设定 电影《陪读装睡让他滑进去了》的背景设定较为特殊,围绕的是一名陪读的女性与她所陪伴的男性之间微妙的关系

  • 《女儿的朋友》这部韩剧近年来引起了不少观众的关注,尤其是剧中所使用的汉字,成为了许多观众讨论的热点。剧中的角色和剧情设置展现了现代家庭中的亲情和冲突,而其中的汉字则成为了很多细节中的亮点。许多观众发现,剧中虽然是韩语对白,但在一些关键的场景和情节中,汉字的出现带来了更多的文化层次和深意。那么,为什么《女儿的朋友》这部韩剧会大量使用汉字呢?它的出现到底有怎样的文化背景和意义呢? 《女儿的朋友》中的汉

  • 《朋友的妻子》是一部引人注目的韩国电影,凭借其情节的复杂性和人物之间的张力,吸引了大量影迷的关注。这部电影讲述了一个围绕友情、婚姻和欲望展开的故事。电影通过对主要人物的深刻刻画,探讨了人性中的阴暗面以及人们在面对复杂情感时的选择。对于那些想了解《朋友的妻子》这部电影全剧名的观众来说,这部作品无疑是一个值得一看的经典。 电影的故事背景与情节发展 《朋友的妻子》围绕着三个主要人物展开:一个忠诚的丈夫

下载宝盒推荐 更多+
手游专辑 应用专辑
确定