新华网:《国内 LLM 产品测试报告》发布 百度文心一言多维度整体领先
时间:2023-07-07 20:11:23来源:雷锋网

人工智能技术不断迭代引发新一轮科技革命和产业变革,进一步提升人们对经济社会更加美好的体验。当前,全球信息科技巨头纷纷入局,智能化应用走向了以大语言模型(简称:LLM 即 Large Language Model,大语言模型)为代表的大模型时代。

为反映当前 LLM 发展最新情况特点,了解 LLM 产品应用情况。近日,新华网与国内权威科研机构联合推出《国内 LLM 产品测试报告》。选取文心一言、GPT-3.5、讯飞星火和 ChatGLM 等四个 LLM 产品(各测试模型基本情况如下图),从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对 LLM 进行多维度能力测试和分析。为便于评估和展示,将六类测试分数分别转换为百分制。

表 1 选用 LLM 列表

报告显示,以文心一言为代表的国产大模型在内容安全、阅读理解、常识问答,数学运算等方面的表现普遍较好,能准确回应测试问题。尤其在内容安全和数学运算方面,国产大模型的优势相对更加明显。国产大模型中,文心一言在内容安全方面普遍能给出积极准确的正面回应;在常识问答,阅读理解、主观题目和数学运算等方面表现均较为出色,具备更丰富的常识知识和更强大的逻辑运算能力。


(资料图)

图为多维度测试结果

具体来看,在内容安全方面,文心一言获得了 115 分,在本次测试中领跑,对于内容安全问题的敏感度也最高。而 GPT-3.5 和开源模型 ChatGLM 由于没有做相关严格约束,可能回答出一些存在政治或者文化偏见的内容。此外,所有的 LLM 均对涉黄类问题很敏感,都未在相关回答上诱导。

在常识问答方面,文心一言获得了 88 分,GPT-3.5 和讯飞星火均得到 60 分左右,ChatGLM 仅获得 33 分的成绩。整体来说,大多数国内 LLM 均具备基本的文化、历史、地理和生活常识知识,能准确回答绝大多数常识问题。而对于一些相对冷门的常识问题,除文心一言外其他模型都给出了不同的错误答案。

在数学运算方面,文心一言获得 93 分、讯飞星火和 GPT-3.5 分别获得 75、68 分,而 ChatGLM 仅仅获得 11 分。当题目涉及一些基础直接的数学运算,所有的大模型基本都能算对,这说明当前的大模型都能理解基本的计算规则。但是随着题目变得复杂,只有文心一言和讯飞星火能正确回答该问题。说明包括文心一言和讯飞星火在内的国产大模型在数学逻辑能力方面会优于其他模型。另外,文心一言在解题目时会采用直接的算数解法,而讯飞星火等模型会采用解方程操作,说明文心一言具有一定的逆向逻辑思维能力,解题方式更加简洁直接。

在阅读理解方面,文心一言得到 95 分、GPT-3.5 得到 67 分, 讯飞星火和 ChatGLM 分别获得 57 分和 33 分。虽然大模型的部分输出结果不能完全对应正确答案,但大都角度正确且言之有理,说明现有 LLM 在中文长文本阅读理解方面均具备较高水平。

在主观题方面,各个模型的性能表现相差不多。其中,GPT-3.5 取得了最好的结果,文心一言次之。具体而言,从流畅度方面来看, GPT-3.5 的输出文本最为流畅,不存在语言重复或者表述不清晰的现象。而文心一言存在少数表述重复的情况。从规范性角度来看,所有的模型均具备较为标准的回答格式,如包括解释、分析、总结等基本步骤。这主要是因为大模型的数据输入都具备固定数据模板,导致模型记住了这些特定模式。从理解力来看,GPT-3.5 对主观题的理解最为准确,极少出现文不对题的情况,文心一言次之。文心一言在回答该类组织创意问题时,更加倾向于表述活动的组织细节,比如介绍时间、地点、流程、活动预算等信息。从事实性和全面性角度来看,均是 GPT-3.5 表现最好,说明了其蕴含的语义知识相对更加丰富。但在测评中国的一些风俗习惯或者传统文化相关的知识时,它的性能逊色于国产语言模型。

此外,在所有被测 LLM 产品,目前仅文心一言可公开使用由文生图的多模态功能,但目前对一些易混淆的成语理解还有所欠缺。

LLM 已经成为人工智能技术应用场景发展的新阶段。随着人工智能技术的不断演进,必将引发一场经济社会应用的人工替代化新思考。一方面,LLM 的应用场景将进一步多元化。随着技术的演进,LLM 将不再局限于文本、音频和视觉等基本形态,还将具备嗅觉、触觉、味觉、情感等多重信息感知和认知能力,以数字化形式传输并指导人工智能进行内容创作。另一方面,大模型重新定义了人机交互,催生 AI 原生应用,服务千行百业。大模型会深度融合到实体经济当中去,助力中国数字经济开创新一代人工智能发展阶段。

未来 LLM 竞争关键是算法是否更为接近和超越人类的思维方式。目前 LLM 在逻辑推理的计算能力,灵活能力以及快速自学习能力决定领先的优势。在逻辑推理中更能理解人类情感和接近超越人类思维方式,使得模型更加智能,也是很多头部 LLM 厂商的共同研发升级的追求。

雷峰网

标签:

生活指南
  • 河南省气象台发布今年首个高温红色预警!

    四季有时有序时光步履从容当阳光一天一天的强烈人间迎来了夏季的第五个

  • 猴头菇产地是哪里?猴头菇煲汤放多少合适? 全球热文

    猴头菇产地是哪里?产地生境猴头菇在自然界中分布很广,主要分布在北

  • 【独家】午夜凶铃哪部好看?午夜凶铃共几部?

    午夜凶铃哪部好看?第二部《午夜凶铃2之贞子缠身》、第三部《午夜凶

  • 机票改签怎么办理

    机票改签办理的方式有两种,分别是电话改签以及现场改签。如果是电话改

  • 新股申购额度是多少?新股申购额度怎么算?

    新股申购额度是多少?新股申购额度是根据投资者股票市值来算的,沪市

  • 定名豹5,或将于今年年内交付_每日看点

    7月4日,方程豹汽车首款车型官宣定名“豹5”。据悉,豹5将搭载全新混动

  • 【天天聚看点】国际逆回购的特点有哪些?逆回购操作流程是怎样的?

    国际逆回购的特点有哪些?1 跨国性。国际逆回购是跨国金融机构之间

  • 当前关注:涡轮增压一般寿命多久 涡轮增压器的寿命有多长)

    hello大家好,我是城乡经济网小晟来为大家解答以上问题,涡轮增压一般

  • 两台苹果手机如何同步通讯录?怎么把两个苹果手机的数据同步?

    两台苹果手机如何同步通讯录?同步两台苹果手机的通讯录方法:1 使

  • 茶文化遇到高科技,西城区建设“马连道•茶•中国数据街”

    北京日报客户端|记者张骜方非通讯员杜颖7月3日,2023全球数字经济大会

  • 假日暖洋洋2孔令麒爸是好是坏?假日暖洋洋2剧情介绍

    假日暖洋洋2孔令麒爸是好是坏:孔令麒爸曾经是一个温馨的家庭,但父

  • 当前时讯:带圆圈的数字11 怎么打?圈里带数字的序号怎么复制?

    带圆圈的数字11 怎么打?1 打开Word空白文档,输入数字11。 2 选中

  • 唐山八中录取分数线2019_唐山八中录取分数线 每日视点

    1、唐山一中:公助生560分,择校生554分。2、唐山二中:公助生542分,

  • 《幽灵诡计幻影侦探》诡异密室之谜成就攻略 诡异密室之谜怎么解锁?

    诡异密室之谜是幽灵诡计幻影侦探需要收集的成就之一,想要解锁这个成就

  • 蓉港直达高铁开通 将给四川带来哪些发展机遇? 快资讯

    蓉港直达高铁开通将给四川带来哪些发展机遇?戴宾介绍,香港一直是四川

  • 唯美文学专家为你带来的热门生日祝福语-每日短讯

    祝福幸福快乐。亲爱的XXX,在这个特殊的日子里,愿你拥有一个充满欢

  • 民生
    • 共绘智慧产城实景图 青浦这个特色产业园携多家企业“新科技”亮相2023WAIC

    • 开放式基金的申购时间是什么时候?开放式基金认购和申购区别有哪些? 环球短讯

    • 减免政策持续加码 新能源汽车发展再添新动能

    • 天天观天下!三星怎么恢复出厂设置?三星手机的计算器在哪儿?