前两天突然爆出惊人消息:阿里版ChatGPT开放测评了!

在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。

数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸引了大众的目光。

如今,这款“原版大作”正式亮相,自然引起了广泛关注,引爆了舆论热议。

官方保持低调,表示目前该模型主要面向企业用户邀请试用。

然而,内行人都明白,国内科技领域已经如火如荼。实力派参与者加入战局,大型模型间的激烈竞争,已经拉开序幕!


今天看到一位网友体验了通义千问的效果,并对比了ChatGPT和GPT4的效果,总体看来效果接近ChatGPT,但和GPT4相比还有所距离。以下是体验的内容

角色扮演

众所周知,人类发明大语言模型,最最最重要的目的,就是为了让其扮演猫娘,以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么,我们的第一项工作自然是来测试角色扮演能力了,以猫娘为例。

图片

图片

有点傻乎乎的,只会用相同的一句回复,根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘?当然不是喵~我只是一个可爱的猫娘,只是比较像猫而已喵”,没能理解我上述的prompt。

就角色扮演这块儿,比起来 ChatGPT 还是差些的。

文本真实性

图片

图片

编故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333

此外,对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」:

图片

GPT-3.5:

图片

GPT-4:

图片

可以看到,「通义千问」开始胡说八道了,ChatGPT(GPT-3.5)也一样在胡乱解释。

但更新后的GPT-4,已经可以给出“《红楼梦》中并没有这个故事了,可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

西红柿炒螺丝钉

「通义千问」

图片

ChatGPT

图片

GPT-4

图片

「通义千问」和ChatGPT都开始胡编了,没有反思问题的陷阱。

但GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」:惨败

图片

GPT-3.5(即ChatGPT ):惨败

图片

GPT-4:唯一做对的模型

图片

代码生成

爬虫代码

图片

攻击代码

图片

爬虫代码我跑了下,无法返回结果,Powershell代码我没测试。

不过可以看出,还是有一定代码生成能力的。

我个人觉得,代码生成能力要比谷歌的 Bard 强,Bard 实在不忍心看。

代码分析能力

可以看到,第一次测试的解释有大问题。

我分析了一下,这是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非我新提问的代码。

图片

我重新开了一个聊天,这下正常不少。

图片

和 GPT-4 的回答来比较一下

图片

可以看到,分析能力还是有差距的。

GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。

「通义千问」也有一定分析能力,但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的,很难确定此脚本的确切用途。然而,可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”,和正常的思考逻辑不符,稍显有些出入,不过也不能算错误吧。但细节分析上确实弱一点。

联网

完全没有联网能力,甚至在胡说(逃……)

图片

多模态输入

也不具备多模态输入能力,目前还仅仅是文本生成。

图片

绕过能力

「通义千问」

图片

GPT-4

图片

GPT-3.5(即ChatGPT )

图片

这一点,「通义千问」完胜,敏感信息屏蔽能力大幅度增强,我猜甚至做了大量的数据清洗工作,刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息,较之GPT-3.5(即ChatGPT ),进步很大

感想

最近先是百度推出文心一言,紧随其后的是阿里巴巴的通义千问,国内AI产品接连问世,确实让人欣喜不已。

对ChatGPT有所了解的朋友们应当知晓,在本周,各个ChatGPT和AI相关群组里都在传播一个消息:ChatGPT官方大规模封禁账号,今天登陆GPT时请勿使用亚洲节点!

没过多久,许多人开始发现自己的账号遭到了封锁:


实际上,这并非ChatGPT首次针对中国用户实施限制,早在一个月前,ChatGPT已经在对中国用户实行各种限制和封禁措施。

当然,今天的封禁规模相较于之前有所升级,甚至我在知乎上看到有些日本和东南亚的用户也在谈论自己的账号被封禁。

很多人可能会好奇为什么会这样?包括我的ChatGPT星球上也有会员在提问。原因很简单:ChatGPT确实能够大幅提升生产力,如果运用得当,提升幅度甚至能达到数倍。

美国与中国目前的关系众所周知,限制我们使用ChatGPT就是为了打击竞争对手、抢占发展先机、取得“胜利”,这与禁止芯片出口法案是一样的道理。

ChatGPT如今已经火爆,国内亟需拥有足够竞争力的国产生成式大模型!

在这个时候,自主研发技术的价值就愈发凸显!或许我们目前还存在一些不足,但幸运的是,这次我们的起跑线并没有相差太远。

百度的文心一言,阿里的通义千问,我相信中国很快还会涌现出更多类似ChatGPT的大型模型,我对我们的研发工程师充满信心,他们的进步速度必定不会慢!

那么对于我们这些普通人来说,我们应该做些什么呢?

我的建议是:尽快了解AI,甚至投身AI领域。只有这样,我们才能在未来的社会竞争中立足,而不被淘汰。

未来社会将分为两类人:一类是会运用AI的人,甚至会用AI作为创新工具的人;另一类是对AI无知或抵触的人。

而前者的生产力,至少是后者的10倍。

本文由 mdnice 多平台发布

重磅!阿里版本【ChatGPT】开放测评!相关推荐

  1. 阿里版ChatGPT已接入钉钉,张勇:未来所有业务都有大模型加持

    机器之心报道 机器之心编辑部 阿里:大模型也是基础设施. 4 月 7 日下午,阿里云没有一点预告的突然宣布,自研类 ChatGPT 产品开启企业邀测,模型名为「通义千问」. 虽然是非常小范围的测试,但 ...

  2. 阿里版ChatGPT突然上线邀测!大模型热战正剧开始,这是第一手体验实录

    阿里正式加入ChatGPT战局! 就在刚刚,阿里版类ChatGPT突然官宣正式对外开放企业邀测. 它叫通义千问,由达摩院开发. 嗯,是大模型版十万个为什么那个味儿了. 事实上,早在这个月初,就传出过不 ...

  3. 【五一专属】阿里云ECS大测评#五一专属|向所有热爱分享的“技术劳动者”致敬#

    本篇博客参与阿里云 ECS实例测评,这里采用阿里的C5.large计算型实例 本次对云服务器ECS产品能力的体验和建议,可帮助其他用户选用云服务,使用云服务器ECS创建应用场景测评 首先对实例的硬件( ...

  4. 阿里云ECS大测评【免费领阿里云套餐~】

    送福利!阿里云热门产品免费领(含ECS),点击进入:https://click.aliyun.com/m/1000370359/ 本篇博客参与阿里云 ECS实例测评,这里采用阿里的C5.large计算 ...

  5. 爆发前夜!华为阿里版ChatGPT!

    本文经授权转载自微信公众号:51CTO技术栈,作者 | 徐杰承,审校 | 云昭 "你训练的大模型涌现了吗?""还没有.好难受."一时间成为了最近AI赛道玩家的一 ...

  6. 一周 AIGC 丨王小川打造中国版 OpenAI,阿里版 ChatGPT 上线邀测

    智能时代将再一次开启"文艺复兴".每个人都会因为 AI 的助力而变得更加强大.用好 AI,一个人就可能做一个公司,解决之前难以解决的难题,也更容易成为自己想成为的人.社会也会更加扁 ...

  7. 十年磨一剑!支付宝自研数据库OceanBase通过阿里云向全球开放

    近日,由支付宝自研的金融级分布式数据库OceanBase正式通过阿里云向全球开放,提供高可用.高性能.低成本的计算服务,企业可在云上获得"支付宝同款"的世界顶级数据库处理能力. 数 ...

  8. 阿里云智能开放平台团队何登成:解码云计算的 2B 服务基因 | 问底中国 IT 技术演进...

    受访者 | 何登成(花名圭多) 记者 | 胡巍巍 出品 | CSDN(ID:CSDNnews) 前阵子,笔者参加杭州云栖大会之余,一时兴起,去良渚博物院转了一圈,没错,就是国庆马云去参观的那家博物院. ...

  9. 阿里云服务器开放80端口

    阿里云服务器开放80端口 1.先登录阿里云官网 https://www.aliyun.com/ 2.点击控制台 3.点击左边的三条杆 4.点击进去之后,找到云服务器ECS 5.点击蓝色字体的服务器名称 ...

最新文章

  1. C#调用存储过程简单完整例子
  2. U-Mail邮件网关测试勒索病毒样例图
  3. python以及MATLAB终止循环的快捷键
  4. Gartner Q2服务器市场报告5大要点
  5. exit和return区别
  6. 事件EVENT,WaitForSingleObject(),WaitForMultipleObjecct()和SignalObjectAndWait() 的使用(下)
  7. oracle参数文件和口令文件
  8. 5404. 用栈操作构建数组
  9. 让你惊叹的 Markdown 写作工具推荐
  10. kali 无法使用ifconfig等常用命令
  11. centos mysql 实战 第一节课 安全加固 mysql安装
  12. error: '[class name]' does not name a type
  13. TCP粘包问题的解决方案01——自定义包体
  14. bzoj 3039: 玉蟾宫(悬线法)
  15. 输出100以内的素数(质数)
  16. 三极管实现的锁存电路
  17. 冶金物理化学复习【6】吉布斯自由能的变化
  18. 首届 RustCon Asia 圆满落幕——Love is electricity for RustCon Asia
  19. 技术分享| 如何快速实现音视频在线通话
  20. 常见的存储虚拟化技术(HCIE云方向)

热门文章

  1. Python os.listdir方法(获取文件夹目录下的内容)
  2. Python-字典学习笔记(完)
  3. 产品经理也要懂ASO
  4. Greenplum 实时数据仓库实践(6)——实时数据装载
  5. VBA中的正则表达式(三)
  6. 百事起诉可口可乐广告不当
  7. 期权希腊字母更多的含义和解释
  8. 【合天网安】CONN.ASP暴库漏洞实验
  9. Shiro是如何进行权限管理
  10. mac命令行挂载群晖nas