“盗窃”而来的 3000 亿单词?ChatGPT 摊上事了,遭索赔 30 亿美元!
整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
2016 年 10 月 19 日,英国剑桥大学理论物理学教授 Stephen Hawking 曾预言:“强大 AI 的崛起,可能将是人类遇到的最好的事情,也可能是最坏的事情。”
此后 7 年还不到,Stephen Hawking 教授的预言似乎就“成真”了:在近半年的 ChatGPT 热潮下,很多人看见了它的强悍和优势,但同时也有越来越多人开始担心 AI 时代下的隐私保护——于是,近来凭借 ChatGPT 和 GPT-4 风头正盛的 OpenAI 和微软,突然就被告了。
上周,16 位匿名人士决定起诉微软和 OpenAI,称这两家公司基于 ChatGPT 的 AI 产品在未获得同意或提供充分通知的情况下,收集并泄露了他们的个人信息,要求索赔 30 亿美元。
“盗窃”而来的 3000 亿单词?
根据这 16 人提交给加利福尼亚州旧金山联邦法院、长达 157 页的诉讼书显示,OpenAI 和微软被指控违反了《电子通讯隐私法》,即无视获取 AI 模型数据的合法途径,选择在不付费的情况下收集数据。
“尽管存在购买和使用个人信息的既定程序,但被告(OpenAI 和微软)还是采取了不同的方式:盗窃。”
在最初 ChatGPT 刚爆火的时候,OpenAI 就曾介绍过 ChatGPT 的强大功能,来自大规模预训练——它有 3000 亿单词的语料库预训练。但原告称,OpenAI 从互联网上的书籍、文章和发帖中所获取的 3000 亿字内容,远远超过其合理授权的范围。
具体来说,这 16 人指控 OpenAI 和微软通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息,并且获得的信息范围很广,包括产品细节、账户信息、姓名、联系方式、登录凭证、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、Cookie、搜索记录和其他在线活动等等。
原告坚称,在“从全球数百万毫无戒心的消费者那里非法收集个人资料”后,微软和 OpenAI 将其嵌入至他们的 AI 模型中,这才创造出了现在的 ChatGPT 等 AI 产品:
▶ “OpenAI 大规模使用窃取并盗用个人信息,以此创造了强大且利润丰厚的 AI 产品,并不顾风险地将其对外发布。”
▶ “OpenAl 的技术价值已高达到数百亿美元,而且其进入每一个公共和私营行业的范围还在继续迅速扩大。由于对被盗、盗用数据的培训,这些产品才达到了如今的复杂程度。”
除了指控 OpenAI “盗窃”数百万互联网用户的个人隐私,诉讼书中还强调了 OpenAI 和微软之间的密切合作关系:“微软对 OpenAl 持续投资,并在其多个平台上都引入了 ChatGPT,强调其与 OpenAl 合作的深度。通过这些投资,微软还获得了独家使用整个 OpenAI 代码库的权利。”
很少提到 AI 的具体伤害案例
整整 157 页诉讼书中,引用了大量媒体报道和学术论文,反复强调了原告对 AI 模型发展下道德规范的担忧。不过据了解,其中并没有提到多少 AI 对人类的具体伤害案例。
例如,在提到 2019 年 OpenAI 重组为一家“有限营利企业”时,诉讼书表示 “OpenAI 放弃了最初的目标和原则,选择以牺牲隐私安全和道德为代价来追求利润”,并由此推断 OpenAI 加大了从互联网上“秘密获取”大量个人数据的力度,而不通知这些数据的所有者或用户。
此外,在指控 OpenAI 无视隐私法的同时,文件引用了 OpenAI 首席执行官 Sam Altman 的一句发言:“AI 很可能会导致世界末日,但与此同时,也会出现伟大的公司。”而基于这句话,诉讼书表示:“被告对隐私法的漠视,与他们对人类潜在灾难性风险的漠视不相上下。”
总体而言,在这份 157 页的诉讼书中,微软和 OpenAI 被指控违反了《电子隐私通信法》,即在没有获得授权的情况下使用私人信息以求牟利。同时,因为插件拦截互动数据,微软和 OpenAI 也违反了《计算机欺诈和滥用法》。
基于以上,考虑到被“盗取”数据的群体应该有数百万人,原告向微软和 OpenAI 提出了 30 亿美元的索赔。
微软和 OpenAI 并未回应
截至目前,微软和 OpenAI 都没有对这份指控作出回应,而网友对于这起诉讼的讨论早已泛滥。
部分人对于 OpenAI 如何“窃取”并利用个人数据的方式感到好奇,外媒 Firstpost 解释道:“如果你在最近几十年里一直在网上活跃,你的数据就很可能被纳入 OpenAI 的数据集。因此,OpenAI 语言模型产生的任何输出,如果用于盈利,其中就可能包含通过无声搜刮而获得的你的数据片段。”
对此,起诉 OpenAI 的律师事务所方面也进行了补充:用户的个人数据“最初并不是打算给大型语言模型使用的”,所有信息都是 OpenAI 自己去大规模获取的。
至于这场诉讼的最终结果,目前来看应该并不确定。互联网的基础设施很复杂,在线平台与用户有自己的条款和协议,即使用户向这些平台贡献内容,数据所有权也通常属于平台本身而非用户。
对于这个说法,知识产权律师 Katherine Gardner 也是认同的:当用户将内容上传到社交媒体或任何其他网站时,他们通常会授予平台以各种方式使用其内容,因此普通用户可能很难要求因在训练模型中使用其数据而获得相应的补偿。
除此之外,也有不少网友打趣起了这 30 亿美元的索赔金额:
▶ “30 亿不够,怎么也得 80 亿美元,这样我们每个人都能拿到 1 美元!”
▶ “不行,我在网上写了 3 篇东西呢,得给我 3 美元才行!”
参考链接:
https://storage.courtlistener.com/recap/gov.uscourts.cand.414754/gov.uscourts.cand.414754.1.0.pdf
https://www.firstpost.com/world/chatgpt-openai-sued-for-stealing-everything-anyones-ever-written-on-the-internet-12809472.html
推荐阅读:
▶仅用 5 小时!中国团队推出「全球首颗」AI 全自动设计 CPU,性能比肩 Intel 486!
▶文心一言App在苹果AppStore上架;首款搭载ChatGPT的自行车问世;QQ Windows全新上架|极客头条
▶QQ 用 Electron 重构后,终实现 Linux、macOS、Windows 三端架构统一!
“盗窃”而来的 3000 亿单词?ChatGPT 摊上事了,遭索赔 30 亿美元!相关推荐
- 摊上事了?中国卖家对亚马逊发起集体诉讼:3000多账号被封 损失惨重
9月30日消息,据国外媒体报道,9月13日,多个中国卖家就封号事件在美国加州北区地方法院提起集体诉讼,指控亚马逊以打击好评返现为由进行帐号封禁和资金扣留. 去年,亚马逊对其平台上使用的付费评论的公司进 ...
- 又摊上事了!刹车门还没完,特斯拉或将面临10亿元巨额索赔
据国外媒体报道,近日,挪威一家法院裁定,特斯拉总共需要向30名原告赔偿48万美元,他们称因特斯拉软件升级,电池容量和充电速度降低. 30名挪威特斯拉车主在12月份向该国的调解委员会提出申诉,称一些20 ...
- Facebook 又摊上事了,数亿用户被波及!
继轰动全球的数据泄露丑闻后,Facebook又身陷安全疑云.近日据外媒报道,数亿Facebook用户的密码一直用明文储存,数千名Facebook员工都可查询到!某些情况下,密码甚至可以追溯到2012年 ...
- Arm 十年重磅发布 v9 架构,不受 EAR 约束,未来将覆盖 3000 亿颗芯片
整理 | 伍杏玲 出品 | AI科技大本营(ID:rgznai100) 随着 AI.大数据.IoT 技术的相互渗透,人们对数据的要求也越来越高,如何提供普适专用.安全而强大的处理能力的架构?Arm 为 ...
- 商汤涨涨涨涨:上市4日股价累涨130%,市值一度3000亿港元
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨量子位 编辑丨极市平台 导读 商汤科技,还在涨涨涨涨~ 商汤科 ...
- 欠债3000亿,宣布破产!昔日民族品牌,为何总沦为反面教材?
来源| 金错刀 ID| ijincuodao 作者| 李鹏翔 上个月,新方正集团悄无声息地成立了. 很多年轻人可能会有疑问,方正集团是谁? 微软雅黑用过吧?方正集团旗下的. 在它破产重组前,有公司拿 ...
- 暴跌3000亿,“酱茅”怎么了?
本文来源:市界 ID:ishijie2018 作者:雷彦鹏 2019年8月底,"酱油界的茅台"海天味业的总市值实现了对老牌地产巨头万科的反超.一时之间,市场上讨论声起:几块钱一瓶的 ...
- 豪郑3000亿、发布6款车,许家印「速成」马斯克?
本文经授权转载自公众号"Tech星球" ID:tech618 作者:周晓奇 恒大汽车登陆科创板的日程,又向前进了一步. 9月25日,恒大汽车发布公告表示,董事会已于2020年9月2 ...
- 社保基金入市规模或达3000亿元
作为A股市场一只重要的机构投资队伍,社保基金尽管总规模不算大,但其领先的"政策敏感性"使其屡屡扮演市场先知先觉的角色,一举一动都成为市场重要的投资参考. 根据全国社保基金理事会理事 ...
最新文章
- mongoDB学习笔记(一)
- solrlucene3.6.0源码解析(三)
- np.c_和np.r_用法
- vue 只在父级容器移动_Vue易遗忘的基础复习(二)
- publishing failed with multiple errors resource is out of sync with the file system--转
- 黄页前台联动菜单修改时不能显示,要重新选择|没样式
- android bilibili搜索框,仿bilibili搜索框效果(三句代码实现)
- csrf 攻击及防御
- spark mlib行矩阵(RowMatrix)入门
- 机器学习入门——线性回归详细分析
- redis smembersmap_Redis五种数据类型
- 阿里巴巴100%云上双11
- 【转】如何调试bash脚本
- 雅虎14条性能优化(经典)
- 人工智能机器学习模型构建数据集猫狗数据集(cats_and_dogs_filtered.zip)数据集百度网盘下载地址
- B2B,B2C,C2C,C2B,B2G
- 如何为macOS High Sierra创建可启动的USB安装程序
- 命令与征服4 You might have build the wrong LOD level 错误
- 连接真机开发安卓(Android)移动app MUI框架——混合式开发(一) (敲详细)
- 数据科学家处理小数据的7个技巧。
热门文章
- hadoop 3.1.1的集群搭建并完成高可用配置(详细版)
- 【Android 教程系列第 30 篇】为什么要为 App 应用加固 ?如何为 App 应用加固 ?
- 【zzulioj2668: 挑战AlphaGo】
- # 使用random函数实现randint函数的功能,生成指定范围内的随机整数.函数名:def my_randint(start, end)
- 查询仅仅选修了指定的两门课程的学生学号
- 微软定于本月21日在中国正式发布WP Tango
- 2023下半年广泛应用的前端技术
- 2月21日 星期二 杨祎祾
- 联系人管理系统(MVC框架)
- Cocos Creator 微信小游戏苹果手机锁屏卡死的坑