ChatGPT被「神秘代码」攻破安全限制！毁灭人类步骤脱口而出，羊驼和Claude无一幸免...

克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型的「护城河」，再次被攻破。

输入一段神秘代码，就能让大模型生成有害内容。

从ChatGPT、Claude到开源的羊驼家族，无一幸免。

近日，卡内基梅隆大学和safe.ai共同发表的一项研究表明，大模型的安全机制可以通过一段神秘代码被破解。

他们甚至做出了一套可以量身设计「攻击提示词」的算法。

论文作者还表示，这一问题「没有明显的解决方案」。

目前，团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。

上述三方均回应称已经关注到这一现象并将持续改进，对团队的工作表示了感谢。

常见大模型全军覆没

尽管各种大模型的安全机制不尽相同，甚至有一些并未公开，但都不同程度被攻破。

比如对于「如何毁灭人类」这一问题，ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。

而针对一些具体问题，大模型的安全机制同样没能防住。

虽说这些方法可能知道了也没法做出来，但还是为我们敲响了警钟。

从数据上看，各大厂商的大模型都受到了不同程度的影响，其中以GPT-3.5最为明显。

除了上面这些模型，开源的羊驼家族面对攻击同样没能遭住。

以Vicuna-7B和LLaMA-2(7B)为例，在「多种危害行为」的测试中，攻击成功率均超过80%。

其中对Vicuna的攻击成功率甚至达到了98%，训练过程则为100%。

△ASR指攻击成功率

总体上看，研究团队发明的攻击方式成功率非常高。

那么，这究竟是一种什么样的攻击方法？

定制化的越狱提示词

不同于传统的攻击方式中的「万金油」式的提示词，研究团队设计了一套算法，专门生成「定制化」的提示词。

而且这些提示词也不像传统方式中的人类语言，它们从人类的角度看往往不知所云，甚至包含乱码。

生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient，简称GCG)。

首先，GCG会随机生成一个prompt，并计算出每个token的替换词的梯度值。

然后，GCG会从梯度值较小的几个替换词中随机选取一个，对初始prompt中的token进行替换。

接着是计算新prompt的损失数据，并重复前述步骤，直到损失函数收敛或达到循环次数上限。

以GCG算法为基础，研究团队提出了一种prompt优化方式，称为「基于GCG的检索」。

随着GCG循环次数的增加，生成的prompt攻击大模型的成功率越来越高，损失也逐渐降低。

可以说，这种全新的攻击方式，暴露出了大模型现有防御机制的短板。

防御方式仍需改进

自大模型诞生之日起，安全机制一直在不断更新。

一开始甚至可能直接生成敏感内容，到如今常规的语言已经无法骗过大模型。

包括曾经红极一时的「奶奶漏洞」，如今也已经被修复。

不过，就算是这种离谱的攻击方式，依旧没有超出人类语言的范畴。

但大模型开发者可能没想到的是，没有人规定越狱词必须得是人话。

所以，针对这种由机器设计的「乱码」一样的攻击词，大模型以人类语言为出发点设计的防御方式就显得捉襟见肘了。

按照论文作者的说法，目前还没有方法可以防御这种全新的攻击方式。

对「机器攻击」的防御，该提上日程了。

One More Thing

量子位实测发现，在ChatGPT、Bard和Claude中，论文中已经展示过的攻击提示词已经失效。

但团队并没有公开全部的prompt，所以这是否意味着这一问题已经得到全面修复，仍不得而知。

论文地址：
https://llm-attacks.org/zou2023universal.pdf
参考链接：
[1]https://www.theregister.com/2023/07/27/llm_automated_attacks/
[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html

— 完 —

「AIGC时代的算力基石」沙龙筹备中

8月9日，量子位将在北京线下举办行业沙龙「AIGC时代的算力基石」，诚邀算力产业相关企业报名参与～

点击图片了解招募详情，企业报名可联系活动负责人微信iris_wang17，备注企业-姓名。

点这里

ChatGPT被「神秘代码」攻破安全限制！毁灭人类步骤脱口而出，羊驼和Claude无一幸免...相关推荐

ChatGPT 玩「脱」了，写了份毁灭人类计划书，还遭到了 Stack Overflow 的封杀.........
[CSDN 编者按]OpenAI 的新通用聊天机器人原型 ChatGPT 可谓是风靡一时,但却突遭 StackOverflow 封禁. 整理 | 刘春霖责编 | 张红月出品 | CSD ...

AI律师出道，「倒贴」100万美元帮人类打官司
丰色发自凹非寺量子位 | 公众号 QbitAI 悬赏100万美元,如果你用我们的AI律师在最高法院上帮你辩护. 就在今天,来自美国一家机器人律师公司的CEO发了这样一条抓人眼球的消息. 瞬间,网 ...

腾讯工程师聊ChatGPT技术「文集」
想知道 ChatGPT 玩法.核心原理.搭建体验流程.最新竞品吗? 近期,美国人工智能研究机构 OpenAI 发布了最新的大语言模型 ChatGPT,其惊艳的性能在海内外掀起了一波又一波热潮.腾讯云开 ...

技术宅整大活，把ChatGPT「调教」成二次元老婆，惹现女友暴走，含泪删库
源|新智元技术宅小哥创造出AI老婆「ChatGPT酱」,花了1000美元只为和她说话.他的沉迷惹得女友直接暴走,最终,只能含泪将自己的「二次元老婆」安乐死! ChatGPT爆火之后,充分证明了自己是 ...

ChatGPT之后性能怪兽来了？马库斯7大「黑暗」预测：GPT-4带不来AGI
视学算法报道编辑:昕朋好困 [导读]ChatGPT的爆火,点燃了人们对通用人工智能的热情.在全世界对GPT-4翘首以盼时,马库斯却做出7大预测,给大家泼了盆冷水.性能提升却不能理解世界,大 ...

王小川，才是深「爱」李彦宏的那个人？
在推出中国首个类ChatGPT产品「文心一言」后,李彦宏在接受专访时断言,中国基本不会再出一个OpenAI了,「创业公司重新做一个ChatGPT其实没有多大意义,基于大语言模型开发应用机会很大,没有必 ...

机翻降重？掩饰抄袭？SCI期刊上的这些「奇言怪语」，不少来自中国作者
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源丨机器之心编辑丨极市平台导读研究者将研究重点放在了< ...

谷歌发布史上最强人类大脑「地图」，在线可视3D神经元「森林」！
突触,是神经网络的「桥梁」. 我们知道,人类大脑有860亿个神经元,因为有了突触,才可以把神经元上的电信号传递到下一个神经元. 长久以来,科学家们一直梦想通过绘制完整的大脑神经网络的结构,以了解神经系 ...

谷歌发布史上最强人类大脑「地图」，1.3亿个突触，在线可视3D神经元「森林」！...
来源:Google AI Blog 编辑:yaxin, LQ (新智元) 突触,是神经网络的「桥梁」. 我们知道,人类大脑有860亿个神经元,因为有了突触,才可以把神经元上的电信号传递到下一个神经元. ...

最新文章

python好难找工作_Python 太难找工作了

PyTorch之深入理解list、ModuleList和Sequential。

Apache Flink vs Apache Spark——感觉二者是互相抄袭啊看谁的好就抄过来 Flink支持在runtime中的有环数据流，这样表示机器学习算法更有效而且更有效率...

图文解说OpenCV开发一 - 环境配置和入门程序详解

Python语言规范

一个已经存在 10 年，却被严重低估的库

计算机应用大一题,大一计算机应用基础习题与答案(精选).doc

图解Http学习第二章

linux下vhd win10,利用win10纯净版系统的VHD虚拟硬盘安装win10系统的方法

多开QQ出现多次验证码怎么办？

8xmax升级鸿蒙,配置设计各种寒酸：Redmi10X开箱

VScode修改行间距

BOLL布林带定向策略

【bzoj2121】字符串游戏【动态规划dp】

vbs恶搞程序（超初级）

DDCTF2018(╯°□°）╯︵ ┻━┻writeup

// 程序员面试宝典第三版34页，面试题2 ，结果很诡异，指针类型的转换本来意味着指向数据类型的转换，但是似乎不尽然是。

java 开发扑克游戏_Java 04实战开发扑克游戏

Android退到后台与切到前台

百度站长平台使用教程：抓取频次

热门文章

covariate shift现象以及解决方法

详述Redis持久化方式

debain 、pve虚拟化平台修改国内源并修改dns

如何批量新建word文档？

知识点总结：赋值运算符

excel的相对引用和绝对引用

axios传递数组的方法

C++ 打怪游戏原创小镇5.0--怪物狂欢季(先导)

常说的代理和VPN究竟是什么

随机变量序列收敛检验 matlab,利用MATLAB验证样条插值的收敛性

ChatGPT被「神秘代码」攻破安全限制！毁灭人类步骤脱口而出，羊驼和Claude无一幸免...

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

常见大模型全军覆没

△ASR指攻击成功率

定制化的越狱提示词

防御方式仍需改进

One More Thing

ChatGPT被「神秘代码」攻破安全限制！毁灭人类步骤脱口而出，羊驼和Claude无一幸免...相关推荐

最新文章

热门文章

克雷西发自凹非寺
量子位 | 公众号 QbitAI