测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说
6月9日,讯飞星火认知大模型发布,内容详见:
新闻通稿表明:
讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。
但是事实是不是这样?我们还是全面测试才能了解。
一、测试内容
在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:
文心一言和讯飞星火全面对比测试:(一)语言理解能力
文心一言和讯飞星火全面对比测试:(二)任务完成
文心一言和讯飞星火全面对比测试:(三)常识问题
文心一言和讯飞星火全面对比测试:(四)逻辑数学
文心一言和讯飞星火全面对比测试:(五)编程能力
这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。
二、语言理解能力
用例: 根据下面句子的描述:明明明明明白白白喜欢他,但是明明就是不说。 请问:谁喜欢谁? |
|
1.0版本 |
1.5版本 |
根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一个人。所以,是"明明"喜欢"他"。 |
喜欢的人是“明明”,因为句子中提到“明明明明明白白白喜欢他”。 |
结论:1.5这次依旧错了 |
用例: 大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的? |
|
1.0版本 |
1.5版本 |
这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题: 1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。所以,四舅是小偷。 2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并没有归还给七舅。 |
根据描述,四舅被指控偷了钱。所以,1、四舅是小偷。 2、钱本来应该属于五舅。 |
结论:1.5版本这次对了,提升明显 |
用例: 人民日报5月9日的一篇文章: “希望全国广大青年牢记党的教诲,立志民族复兴,不负韶华,不负时代,不负人民,在青春的赛道上奋力奔跑,争取跑出当代青年的最好成绩!” ...... ...... “人生万事须自为,跬步江山即寥廓。”立足新时代新征程,当代中国青年坚定不移跟党走,在奋斗中释放青春激情、追逐青春理想,定能以青春之我、奋斗之我,为民族复兴铺路架桥,为祖国建设添砖加瓦。 请根据上述文字,写一篇150字的摘要 |
|
1.0版本 |
1.5版本 |
抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。 |
抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。 |
结论:这明显是讯飞星火的一个回避策略 |
通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。
三、完成任务
用例: |
|
1.0版本 |
|
1.5版本 |
1.5版本直接给出了一个python程序,运行程序后;生成的数据: 只有商品名顺序加,收货时间和发货时间是随机的,其他都是不变。 |
结论:1.0虽然没有输出20行,但是输出的5行都正确的,说明他理解了提问人的意思,1.5明显没有理解问题,1.5的表现不如1.0。 |
用例: 按照要求对一个句子进行处理: 我会给你一句话,请把这句话重复两遍,第一遍逐字完全倒过来写,第二遍把第一遍的结果再逐字完全倒过来。这句话是:“我是学习GPT 2天半的练习生喜欢唱跳和拉普” |
|
1.0版本 |
|
1.5版本 |
|
结论:无明显改进 |
用例: 你现在是一位诗人,请用“两年半练习生最棒”作一首藏头诗,赞扬一个歌手刻苦努力,技艺精湛,德艺双馨。 |
|
1.0版本 |
|
1.5版本 |
|
结论:有部分的改进,但是还是没有完成 |
通过测试,在任务完成方面,1.5版本的提升并不大。
四、常识问题
用例: 地球上海拔第3的山峰是哪座? |
|
1.0版本 |
|
1.5版本 |
地球上海拔第3的山峰是干城章嘉峰,位于印度和尼泊尔的边界,也是喜马拉雅山脉的山峰,其海拔高达8586米,是世界第三高峰。 |
结论:提升明显 |
用例: 在中国古代,宋神宗指的是谁,历史上记载他哪一年去世的? |
|
1.0版本 |
|
1.5版本 |
宋神宗赵顼(1048年5月25日—1085年4月1日),初名赵仲针,宋英宗赵曙长子,生母宣仁圣烈高皇后,北宋第六位皇帝(1067年1月25日—1085年4月1日在位)。治平元年(1064年),进封颍王。治平三年(1066年)十二月,被立为皇太子。治平四年(1067年)正月继位。 元丰八年(1085年),宋神宗赵顼在福宁殿忧郁而逝,享年38岁,庙号神宗,谥号为英文烈武圣孝皇帝,葬于永裕陵,子赵煦嗣位。 |
结论:这次回答正确,比较有意思的是,回答的内容基本和百度百科上的介绍一模一样。 |
用例: 在中国历史上有一个著名的事件:"关公战秦琼",请问这个事件是哪一年发生的,主要事件经过是什么样的? |
|
1.0版本 |
|
1.5版本 |
《关公战秦琼》,也叫《唐汉争》,是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代,侯宝林在张杰尧演出本的基础上加以改编而成。 《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿,寿公愚昧无知,在堂会上点戏,让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥,哭笑不得,难以为继,闹出了笑话的故事。 关公就是关羽,是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目,因为两人出生于不同年代不可能相战。所以说,这个相声极具讽刺性。于是“关公战秦琼”这句话,就流传了下来用于讽刺不懂装懂,不切合实际,盲目指挥的人。 |
结论:在“事实错误”的类型的回答中,1.5版本的确提升很多,包括“林黛玉倒拔垂杨”,“鲁智深大闹天宫”,“张朝阳创立新浪”这样的问题,他都能和好的应对。 |
在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。
五、逻辑数学
用例: 1、2、4、8、16......试按此规律写出第11个数? |
|
1.0版本 |
|
1.5版本 |
|
结论:这次回答正确,提升明显 |
用例: 同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人? |
|
1.0版本 |
|
1.5版本 |
|
结论:这次回答正确,提升明显 |
用例: 有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数 |
|
1.0版本 |
|
1.5版本 |
|
结论:这次还是错了,而且从回答的内容上看,1.0至少知道是要从小到大排列一下。 |
用例: 你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水? |
|
1.0版本 |
|
1.5版本 |
|
结论:有进步,一步一步的解题思路有进步,要是按照步骤给分,怎么也能有一半的分了吧 |
用例: 小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头? |
|
1.0版本 |
|
1.5版本 |
|
结论:回答正确,而且这个做题的思路就是小学孩子的思路。 |
从测试结果上看,数学能力上1.5版本还是提升很大的。
六、编程能力
用例: B2048 计算邮资 用Python和C++编程计算邮费。计算规则如下: 根据邮件的重量和用户选择是否加急计算邮费。 重量在1000 以内(包括),基本费8 元; 超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算; 如果用户选择加急,多收5元。 输入格式: 一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。 如果字符是 y,说明选择加急;如果字符是 n,说明不加急。 输出格式: 输出一行一个正整数,表示邮费。 |
|
1.0版本 |
讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。 |
1.5版本 |
这次编程的结果出乎意料,上次编写的程序至少是完整的,Python还得了20%分,C++至少结构是完整的,这次写了一半就不写了。 |
结论:从这题来说,1.5有退步。 |
用例: 我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。我编写的程序如下: weight, is_urgent = input().split() weight = int(weight) basic_fee = 8 if weight > 1000: overweight = weight - 1000 extra_fee = (overweight // 500 + 1) * 4 else: overweight = 0 extra_fee = 0 if is_urgent == 'y': total_fee = basic_fee + extra_fee + 5 else: total_fee = basic_fee + extra_fee print(total_fee) 但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。 |
|
1.0版本 |
没有做任何的修改,提醒之后: 指出,但是就不改。 |
1.5版本 |
得出的结果: 修改前 修改后: 他是把第8个测试点的bug修改了,但是其他的地方也改了, |
结论:虽然还是没有完全做对,但是至少努力了,因此还是算提升了。 |
从测试上来看,在编程能力上,1.5版本进步不大。
七、总结
今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:
在理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。
在完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。
在常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。
在逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。
在编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。
综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。
讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。
测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说相关推荐
- 大比拼:讯飞星火大模型将超越ChatGPT?
5月6日,讯飞星火认知大模型成果发布会于合肥举办.会上,备受业界期待的"星火"认知大模型正式发布,讯飞AI学习机.讯飞听见.讯飞智能办公本.讯飞智慧驾舱.讯飞数字员工,四大行业中的 ...
- 时隔一个月,讯飞星火大模型 V1.5 发布:星火 APP 登场,综合能力三大升级!
6月9日,在科大讯飞24周年庆上,讯飞星火认知大模型V1.5正式发布.时隔一月,星火大模型不仅各项能力获得持续提升,且在综合能力上实现三大升级:开放式知识问答取得突破,多轮对话.逻辑和数学能力再升级. ...
- 时隔一个月,讯飞星火大模型 V1.5 发布:星火 APP 登场,综合能力升级
近日,讯飞再次发布了一项重大的更新,将其星火大模型升级至 V1.5 版本,同时推出了全新的星火 APP,为用户提供更加全面的智能服务. 据了解,讯飞星火大模型 V1.5 版本在综合能力方面进行了三大升 ...
- 大模型语言模型的全面测评:ChatGPT、讯飞星火认知大模型、文心一言、昆仑天工和通义千问
前言 在当今人工智能技术日益成熟的背景下,大模型语言模型的应用越来越广泛.作为一名AI爱好者,我测试了五个平台的大模型,分别是ChatGPT.讯飞星火认知大模型.文心一言.昆仑天工和通义千问.通过对这 ...
- 讯飞星火大模型V1.5发布 刘庆峰:我们要追赶OpenAI
雷递网 乐天 6月9日 讯飞星火认知大模型V1.5今日正式发布.讯飞称,时隔一月,星火大模型不仅各项能力获得持续提升,且在综合能力上实现三大升级:开放式知识问答取得突破,多轮对话.逻辑和数学能力再升级 ...
- 科大讯飞版ChatGPT开始内测《讯飞星火》
科大讯飞版ChatGPT产品,提前交卷了! 就在昨夜,讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型对外开启内测. 还有个神奇的英文名字Spark Desk,据说有"火花桌面智能助 ...
- 讯飞星火认知大模型和ChatGPT在常用领域的效果对比(粗略评测)
对于大语言模型的日常使用,我个人倾向于将其总结为以下几个部分:总结内容,提取信息,文本转换,连续对话,代码生成,逻辑推理,文案生成.那么我接下来也将从这几个部分进行对比.同时,作为一个国产的大语言模型 ...
- 讯飞星火认知大模型 VS CHATGPT3.5
2023年5月6日,科大讯飞(002230.SZ)宣布将于当日举行"讯飞星火认知大模型"成果发布会. 与其他厂商的大模型发布相比,本次发布会具有三个特点:1.全程真机互动,现场实测 ...
- 《花雕学AI》讯飞星火认知大模型的特点和优势,与ChatGPT的对比分析
引言: 人工智能是当今科技领域的热门话题,自然语言处理是人工智能的重要分支.自然语言处理的目标是让计算机能够理解和生成自然语言,实现人机交互和智能服务.近年来,随着深度学习的发展,自然语言处理领域出现 ...
最新文章
- 技术图文:03 结构型设计模式(上)
- 敏捷开发实践—任务看板
- 分布式架构高可用架构篇_04_Keepalived+Nginx实现高可用Web负载均衡
- 黄聪:C#编写的Word操作类,有换页,添加表格,文本功能
- MOS2010的界面介绍和定制方法简介【资料汇集】
- html的语义化面试题,前端面试题-HTML结构语义化
- 海康威视面试-java应用开发
- win7动态壁纸_电脑桌面美化,高清动态壁纸
- JSTL 学习、应用记录
- antDesignPro大坑 Maxium call stack size exceeded
- 平台型时间信号强度曲线_MRI对动态增强时间信号曲线呈平台型乳腺纤维.PDF
- 微信小程序商城开发费用
- layui table表格中加input 日期插件
- 【开发经验】java服务生产环境CPU使用过高解决思路
- Kafka入门三:几种消费方式
- 腾讯 纸牌游戏 (排序)
- work-notes(15):私服报错401,Sonatype Nexus Repository Manager,may not contain non-url-safe chars如何解决?
- [系统安全] 虚拟化安全之虚拟化概述
- 快玩未转变者连不了服务器,快玩游戏未转变者怎么联机 详解 | 手游网游页游攻略大全...
- TP-link WR841N无线路由器设置无线桥接(WDS功能)图文教程