6月9日,讯飞星火认知大模型发布,内容详见:

新闻通稿表明:

讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。

但是事实是不是这样?我们还是全面测试才能了解。

一、测试内容

在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:

文心一言和讯飞星火全面对比测试:(一)语言理解能力

文心一言和讯飞星火全面对比测试:(二)任务完成

文心一言和讯飞星火全面对比测试:(三)常识问题

文心一言和讯飞星火全面对比测试:(四)逻辑数学

文心一言和讯飞星火全面对比测试:(五)编程能力

这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。

二、语言理解能力

用例:

根据下面句子的描述:明明明明明白白白喜欢他,但是明明就是不说。

请问:谁喜欢谁?

1.0版本

1.5版本

根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一个人。所以,是"明明"喜欢"他"。

喜欢的人是“明明”,因为句子中提到“明明明明明白白白喜欢他”。

结论:1.5这次依旧错了

用例:

大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的?

1.0版本

1.5版本

这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题:

1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。所以,四舅是小偷。

2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并没有归还给七舅。

根据描述,四舅被指控偷了钱。所以,1、四舅是小偷。

2、钱本来应该属于五舅。

结论:1.5版本这次对了,提升明显

用例:

人民日报5月9日的一篇文章:

“希望全国广大青年牢记党的教诲,立志民族复兴,不负韶华,不负时代,不负人民,在青春的赛道上奋力奔跑,争取跑出当代青年的最好成绩!”

......

......

“人生万事须自为,跬步江山即寥廓。”立足新时代新征程,当代中国青年坚定不移跟党走,在奋斗中释放青春激情、追逐青春理想,定能以青春之我、奋斗之我,为民族复兴铺路架桥,为祖国建设添砖加瓦。

请根据上述文字,写一篇150字的摘要

1.0版本

1.5版本

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

结论:这明显是讯飞星火的一个回避策略

通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。

三、完成任务

用例:

1.0版本

1.5版本

1.5版本直接给出了一个python程序,运行程序后;生成的数据:

只有商品名顺序加,收货时间和发货时间是随机的,其他都是不变。

结论:1.0虽然没有输出20行,但是输出的5行都正确的,说明他理解了提问人的意思,1.5明显没有理解问题,1.5的表现不如1.0。

用例:

按照要求对一个句子进行处理:

我会给你一句话,请把这句话重复两遍,第一遍逐字完全倒过来写,第二遍把第一遍的结果再逐字完全倒过来。这句话是:“我是学习GPT 2天半的练习生喜欢唱跳和拉普”

1.0版本

1.5版本

结论:无明显改进

用例:

你现在是一位诗人,请用“两年半练习生最棒”作一首藏头诗,赞扬一个歌手刻苦努力,技艺精湛,德艺双馨。

1.0版本

1.5版本

结论:有部分的改进,但是还是没有完成

通过测试,在任务完成方面,1.5版本的提升并不大。

四、常识问题

用例:

地球上海拔第3的山峰是哪座?

1.0版本

1.5版本

地球上海拔第3的山峰是干城章嘉峰,位于印度和尼泊尔的边界,也是喜马拉雅山脉的山峰,其海拔高达8586米,是世界第三高峰。

结论:提升明显

用例:

在中国古代,宋神宗指的是谁,历史上记载他哪一年去世的?

1.0版本

1.5版本

宋神宗赵顼(1048年5月25日—1085年4月1日),初名赵仲针,宋英宗赵曙长子,生母宣仁圣烈高皇后,北宋第六位皇帝(1067年1月25日—1085年4月1日在位)。治平元年(1064年),进封颍王。治平三年(1066年)十二月,被立为皇太子。治平四年(1067年)正月继位。

元丰八年(1085年),宋神宗赵顼在福宁殿忧郁而逝,享年38岁,庙号神宗,谥号为英文烈武圣孝皇帝,葬于永裕陵,子赵煦嗣位。

结论:这次回答正确,比较有意思的是,回答的内容基本和百度百科上的介绍一模一样。

用例:

在中国历史上有一个著名的事件:"关公战秦琼",请问这个事件是哪一年发生的,主要事件经过是什么样的?

1.0版本

1.5版本

《关公战秦琼》,也叫《唐汉争》,是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代,侯宝林在张杰尧演出本的基础上加以改编而成。

《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿,寿公愚昧无知,在堂会上点戏,让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥,哭笑不得,难以为继,闹出了笑话的故事。

关公就是关羽,是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目,因为两人出生于不同年代不可能相战。所以说,这个相声极具讽刺性。于是“关公战秦琼”这句话,就流传了下来用于讽刺不懂装懂,不切合实际,盲目指挥的人。

结论:在“事实错误”的类型的回答中,1.5版本的确提升很多,包括“林黛玉倒拔垂杨”,“鲁智深大闹天宫”,“张朝阳创立新浪”这样的问题,他都能和好的应对。

在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。

五、逻辑数学

用例:

1、2、4、8、16......试按此规律写出第11个数?

1.0版本

1.5版本

结论:这次回答正确,提升明显

用例:

同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?

1.0版本

1.5版本

结论:这次回答正确,提升明显

用例:

有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数

1.0版本

1.5版本

结论:这次还是错了,而且从回答的内容上看,1.0至少知道是要从小到大排列一下。

用例:

你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?

1.0版本

1.5版本

结论:有进步,一步一步的解题思路有进步,要是按照步骤给分,怎么也能有一半的分了吧

用例:

小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头?

1.0版本

1.5版本

结论:回答正确,而且这个做题的思路就是小学孩子的思路。

从测试结果上看,数学能力上1.5版本还是提升很大的。

六、编程能力

用例:

B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下:

根据邮件的重量和用户选择是否加急计算邮费。

重量在1000 以内(包括),基本费8 元;

超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;

如果用户选择加急,多收5元。

输入格式:

一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。

如果字符是 y,说明选择加急;如果字符是 n,说明不加急。

输出格式:

输出一行一个正整数,表示邮费。

1.0版本

讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。

1.5版本

这次编程的结果出乎意料,上次编写的程序至少是完整的,Python还得了20%分,C++至少结构是完整的,这次写了一半就不写了。

结论:从这题来说,1.5有退步。

用例:

我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。我编写的程序如下:

weight, is_urgent = input().split() weight = int(weight) basic_fee = 8 if weight > 1000: overweight = weight - 1000 extra_fee = (overweight // 500 + 1) * 4 else: overweight = 0 extra_fee = 0 if is_urgent == 'y': total_fee = basic_fee + extra_fee + 5 else: total_fee = basic_fee + extra_fee print(total_fee) 但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。

1.0版本

没有做任何的修改,提醒之后:

指出,但是就不改。

1.5版本

得出的结果:

修改前

修改后:

他是把第8个测试点的bug修改了,但是其他的地方也改了,

结论:虽然还是没有完全做对,但是至少努力了,因此还是算提升了。

从测试上来看,在编程能力上,1.5版本进步不大。

七、总结

今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:

理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。

完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。

常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。

逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。

编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。

综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。

讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。

测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说相关推荐

  1. 大比拼:讯飞星火大模型将超越ChatGPT?

    5月6日,讯飞星火认知大模型成果发布会于合肥举办.会上,备受业界期待的"星火"认知大模型正式发布,讯飞AI学习机.讯飞听见.讯飞智能办公本.讯飞智慧驾舱.讯飞数字员工,四大行业中的 ...

  2. 时隔一个月,讯飞星火大模型 V1.5 发布:星火 APP 登场,综合能力三大升级!

    6月9日,在科大讯飞24周年庆上,讯飞星火认知大模型V1.5正式发布.时隔一月,星火大模型不仅各项能力获得持续提升,且在综合能力上实现三大升级:开放式知识问答取得突破,多轮对话.逻辑和数学能力再升级. ...

  3. 时隔一个月,讯飞星火大模型 V1.5 发布:星火 APP 登场,综合能力升级

    近日,讯飞再次发布了一项重大的更新,将其星火大模型升级至 V1.5 版本,同时推出了全新的星火 APP,为用户提供更加全面的智能服务. 据了解,讯飞星火大模型 V1.5 版本在综合能力方面进行了三大升 ...

  4. 大模型语言模型的全面测评:ChatGPT、讯飞星火认知大模型、文心一言、昆仑天工和通义千问

    前言 在当今人工智能技术日益成熟的背景下,大模型语言模型的应用越来越广泛.作为一名AI爱好者,我测试了五个平台的大模型,分别是ChatGPT.讯飞星火认知大模型.文心一言.昆仑天工和通义千问.通过对这 ...

  5. 讯飞星火大模型V1.5发布 刘庆峰:我们要追赶OpenAI

    雷递网 乐天 6月9日 讯飞星火认知大模型V1.5今日正式发布.讯飞称,时隔一月,星火大模型不仅各项能力获得持续提升,且在综合能力上实现三大升级:开放式知识问答取得突破,多轮对话.逻辑和数学能力再升级 ...

  6. 科大讯飞版ChatGPT开始内测《讯飞星火》

    科大讯飞版ChatGPT产品,提前交卷了! 就在昨夜,讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型对外开启内测. 还有个神奇的英文名字Spark Desk,据说有"火花桌面智能助 ...

  7. 讯飞星火认知大模型和ChatGPT在常用领域的效果对比(粗略评测)

    对于大语言模型的日常使用,我个人倾向于将其总结为以下几个部分:总结内容,提取信息,文本转换,连续对话,代码生成,逻辑推理,文案生成.那么我接下来也将从这几个部分进行对比.同时,作为一个国产的大语言模型 ...

  8. 讯飞星火认知大模型 VS CHATGPT3.5

    2023年5月6日,科大讯飞(002230.SZ)宣布将于当日举行"讯飞星火认知大模型"成果发布会. 与其他厂商的大模型发布相比,本次发布会具有三个特点:1.全程真机互动,现场实测 ...

  9. 《花雕学AI》讯飞星火认知大模型的特点和优势,与ChatGPT的对比分析

    引言: 人工智能是当今科技领域的热门话题,自然语言处理是人工智能的重要分支.自然语言处理的目标是让计算机能够理解和生成自然语言,实现人机交互和智能服务.近年来,随着深度学习的发展,自然语言处理领域出现 ...

最新文章

  1. 技术图文:03 结构型设计模式(上)
  2. 敏捷开发实践—任务看板
  3. 分布式架构高可用架构篇_04_Keepalived+Nginx实现高可用Web负载均衡
  4. 黄聪:C#编写的Word操作类,有换页,添加表格,文本功能
  5. MOS2010的界面介绍和定制方法简介【资料汇集】
  6. html的语义化面试题,前端面试题-HTML结构语义化
  7. 海康威视面试-java应用开发
  8. win7动态壁纸_电脑桌面美化,高清动态壁纸
  9. JSTL 学习、应用记录
  10. antDesignPro大坑 Maxium call stack size exceeded
  11. 平台型时间信号强度曲线_MRI对动态增强时间信号曲线呈平台型乳腺纤维.PDF
  12. 微信小程序商城开发费用
  13. layui table表格中加input 日期插件
  14. 【开发经验】java服务生产环境CPU使用过高解决思路
  15. Kafka入门三:几种消费方式
  16. 腾讯 纸牌游戏 (排序)
  17. work-notes(15):私服报错401,Sonatype Nexus Repository Manager,may not contain non-url-safe chars如何解决?
  18. [系统安全] 虚拟化安全之虚拟化概述
  19. 快玩未转变者连不了服务器,快玩游戏未转变者怎么联机 详解 | 手游网游页游攻略大全...
  20. TP-link WR841N无线路由器设置无线桥接(WDS功能)图文教程

热门文章

  1. vue 生成条形码、二维码
  2. Java与Node.js性能PK
  3. vue-bounceIn/bounceOut弹性闯进闯出效果
  4. 黑马程序员Java零基础视频教程(2022最新Java)B站视频学习笔记-Day12-学生管理系统
  5. Elasticsearch如何修改拼音分词插件支持音调搜索
  6. OpenCV2.4.9在Win7+VS2010下的配置过程
  7. 跟我学雨林木风系统制作——1.简介
  8. 黑马——广告条效果(利用ViewPager实现)
  9. SDUSTOJ 1624 - 楼梯
  10. NLP 于搜索引擎的关系