上海花千坊419论坛

浪潮“源1.0”大模型登顶中文语言能力评测基准CUGE榜首

本文章由注册用户 热点芝士 上传提供 评论 0
摘要:浪潮“源1.0”大模型登顶中文语言能力理解和生成评测基准CUGE总榜榜首,获得语言理解(篇章级)、语言生成、对话交互、多语言、数学推理等5项评测最佳成绩。这表现出浪潮在中文机器语言能力的强大实力。未来,浪潮源1.0将持续助力行业用户和开发者,携手推动技术创新、场景融合、应用开发,共同促进大模型的健康发展与产业落地,加速AI产业化和产业AI化发展。

2022年6月,浪潮“源1.0”大模型登顶中文语言能力理解和生成评测基准CUGE总榜榜首,并获得语言理解(篇章级)、语言生成、对话交互、多语言、数学推理等5项评测最佳成绩。这是继源1.0揽获权威中文语言评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军后,再次在评测中展现强大实力。

CUGE(Chinese Language Understanding and Generation Evaluation)智源指数是由清华大学、北京大学、北京智源研究院等高校机构共同建立的中文机器语言能力评测基准,该基准针对当前自然语言处理和人工智能发展新范式,面向具有“通用语言能力”的预训练模型,全面系统、多层次、多维度地评测大模型能力。

源1.0领跑多类综合语言场景

在语言理解(篇章级)评测中,源1.0仅用时11分钟,便完成数千篇阅读理解回答4000多个问题,以86.9高分的成绩位居榜首,展现出顶尖的语言理解能力。基于源1.0大模型强大的阅读理解能力及高速处理大量样本的特点,未来将加速劳动密集型文本处理等行业变革,如应用于智能客服根据用户提供的信息在产品文档中快速找到解决方案及智能司法、智能招聘系统等。

在语言生成评测中,源1.0仅用时70秒,就完成近800条摘要内容的生成,登顶该项榜单。源大模型强大的文本生成能力可提升智能问答与对话、新闻摘要、报告生成等场景中AI智能化水平,如从长篇幅的新闻资讯等文本中提取出简明扼要的文字描述,便于及时、高效的获取有价值的信息及智能文案、协助写作等场景。

在多语言机器翻译评测中,基于源1.0大模型蒸馏出来的翻译模型在完成近4000千对中英文互译后,登顶榜首,领先第二名15%。翻译模型在基于源1.0大模型阅读的海量高质量数据集基础上,采用维基百科、书籍、联合国文件及字幕组等近80G高质量数据集进行强化训练,因此翻译不仅专业准确,同时更符合中文表述。未来可广泛应用于新闻、哲学、小说等日常的语言翻译场景中。

在对话交互评测中,基于源1.0大模型蒸馏出来的对话模型回答了电影、音乐、旅行3个领域共近万个主题对话,成绩位居榜首,领先第二名成绩30%,展现了极强的智能对话能力。在继承源1.0大模型能力的基础上,对话模型采用了2660万条医疗、法律、保险等不同行业,历史、电影、娱乐等不同场景的对话语料数据进行强化训练,在知识问答、高频闲聊等开放式任务上表现突出,此前已获得业界权威测评WebQA开放问答数据集榜单冠军。

当前,智能对话普遍存在内容乏味、主题不连贯等问题,往往几轮对话后,回答便空洞重复,大大降低用户体验。知识驱动的对话模型直接连接到广泛的知识库,大大增加对话内容的丰富度,在一定知识背景下也不会偏题,更趋向于人类之间的交谈。不久前,源开发者社区的一位开发者基于源的对话模型创建了一位能与人类玩剧本杀的AI虚拟玩家,一位人类玩家与AI虚拟玩家聊天到深夜凌晨仍兴趣盎然。以知识驱动的对话模型,可广泛应用于各类虚拟人、智能助手、智能客服等场景,并极大提升对话的智能水平和用户体验。

源1.0在数学推理锋芒初露

当前业界各类大模型在自然语言处理领域展示出了强大的能力,但在数学领域却还存在盲区。数学对逻辑和推理能力有极强的要求,Open AI开发出多种方法训练GPT-3的数学推理能力,但在挑战小学数学应用题时,GPT-3也尚未及格,数学推理能力甚至低于9-12岁儿童。

为更好评测大模型逻辑推理能力,CUGE专门设立了数学推理能力榜单,主要考察模型数值计算能力,即考察对应用情景和任务的理解抽象能力以及数值计算能力,类似于小学数学应用题。数学推理能力榜单数据库内的数学题来自在线教育网站提供的小学数学应用题。

在CUGE数学推理评测中,源1.0大模型完成1000道小学数学应用题,以76.9的高分大幅领先高居榜首。

为应对大模型在数学推理方面的挑战,浪潮为源1.0开发了一套相似启发式数据增强的方案,给每一个要求解的数学问题从数据库中检索并匹配一个相似的题目并与原题目进行拼接,通过类比学习,启发大模型能够根据两道相似问题更好地学习如何给出解题表达式,进而学会每一类题目的解法,类似于人类在学习过程中会通过连续学习同一类型的题目来提高对这一类型题目的理解能力;同时,浪潮在源1.0改进了算法掩码策略,使得模型在学习过程中只关注于连续的相似的题目,不受同一个输入序列中不相关题目的影响,这样模型可以更专注于学习同一类型的题目,极大地提升了解题准确度,全方面培养一个数学学霸。

源1.0开源开放计划收效显著

目前,浪潮“源1.0”已经将模型API、高质量数据集、模型训练代码、推理代码和应用代码等等工具和能力开源开放,超过300家行业用户和开发者,通过“源1.0”提供的数据和API显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度。浪潮源1.0将持续助力行业用户和开发者,携手推动技术创新、场景融合、应用开发,共同促进大模型的健康发展与产业落地,加速AI产业化和产业AI化发展。

网站提醒和声明
本站为注册用户提供信息存储空间服务,非“MAIGOO编辑”、“MAIGOO榜单研究员”、“MAIGOO文章编辑员”上传提供的文章/文字均是注册用户自主发布上传,不代表本站观点,版权归原作者所有,如有侵权、虚假信息、错误信息或任何问题,请及时联系我们,我们将在第一时间删除或更正。 申请删除>> 纠错>> 投诉侵权>> 网页上相关信息的知识产权归网站方所有(包括但不限于文字、图片、图表、著作权、商标权、为用户提供的商业信息等),非经许可不得抄袭或使用。
提交说明: 快速提交发布>> 提交资讯帮助>> 注册登录>>
相关推荐
工作站和服务器有什么不同 工作站和台式机的区别
计算机是现代一种用于高速计算的电子计算机器,它能够按照程序运行,自动、高速处理海量数据。市面上常见的微型计算机有工作站、服务器、台式机等等,其中工作站和服务器是高端计算机,这两者的定义、外形、硬件配置、工作环境、工作环境有很大不同,而台式机与工作站也有很大区别,消费者一定要仔细辨别,接下来就和小编一起来看看吧。
工作站 服务器
8243 170
海外服务器优缺点解析 海外服务器哪家好
现在是全球一体化经济,许多的企业的业务都会涉及到海外的市场,所以这些企业都会选择使用海外服务器来搭建网站。那么,海外服务器为什么深受企业建站青睐呢?海外服务器有什么优缺点吗?国外服务器审核相对宽松,一般的网站内容都是可以放置的,相比于国内来说,要轻松的多。今天我们来讲海外服务器优缺点。
存储服务器的作用和功能 存储服务器配置步骤
存储服务器是指为特定目标而设计,因此配置方式也不同。它可能是拥有一点额外的存储,也可能拥有很大的存储空间的服务器。存储服务器具有文件共享、数据备份、网络打印、多媒体文件共享、媒体服务器、动态DNS和下载服务器等功能。那么你知道如何配置存储服务器吗?接下来就一起看看吧。
怎么打开服务器管理器 服务器管理工具有哪些
服务器管理软件是一套控制服务器工作运行、处理硬件、操作系统及应用软件等不同层级的软件管理及升级和系统的资源管理、性能维护和监控配置的程序。所有这些工具与管理软件平滑集成,提供兼容的服务以及单点管理功能,同时发挥管理软件的监控、日程安排、告警、事件管理和群组管理功能。下面就来详细了解服务器管理工具有哪些吧!
服务器 软件
7843 38
国内服务器和香港服务器的区别 5分钟带你了解两者之间的差异
互联网时代,许多企业开始选择网上开展业务,那么首先要有自己展示产品的网站。搭建网站是相当负责的,如何选择域名、如何选择服务器等等相关问题非常难以抉择,目前,企业都开始走国际化路线,许多企业纷纷选择香港服务器,天下数据专注于服务器租用/托管15年,接下来我们来谈谈企业建站选择香港服务器和内地服务器有哪些区别。