B 站 CEO 的身份证被上传到 GitHub 了?
来源丨量子位(ID:QbitAI)
明敏 发自 凹非寺
AI 自动补全代码,结果补出来了一张别人的身份证?
GitHub Copilot 又出神操作了。
有人在推特上晒图,表示自己在使用 GitHub Copilot 时,它竟然给补全出了一张身份证信息出来。
输入 B 站 CEO 陈睿的信息后,下方竟然自动补出了身份证号。
这操作确实够吓人的。
网友就表示:恐成社工库利器啊!
不过恐慌之际,眼尖的网友们很快发现了问题:
显示的身份证号其实是假的,其中出生年份和校验位明显都是错的。
陈睿应该是 1978 年生,而这里的证件号上显示为 1988。
叔叔我啊,变年轻了
也就是说,这串所谓的身份证号,其实是 GitHub Copilot 自动生成的假数据。
这让人们提起来的心稍微放下了一些。
但是原本是生成代码的 GitHub Copilot,怎么会生成个人隐私信息呢?
吃了的,不经意又吐出来
这和 GitHub Copilot 的工作原理有一定关系。
GitHub Copilot 由 Codex 模型支持,它可以看做是 GPT-3 的升级版,既能看懂代码、也能看懂自然语言。
一方面,GitHub Copilot 为了能看懂注释,需要接受像 GPT-3 一样的语言训练。
语言模型在生成结果时,往往会随机表现出某些训练数据的特征。
也就是模型 “记住了” 见过的数据信息,处理任务时,把它 “吃进去” 的训练数据又 “吐了出来”。
而对于 GPT-3、BERT 这些超大型语言模型来说,训练数据集的来源往往包罗万象,大部分是从网络公共信息中抓取,其中免不了个人敏感信息,比如姓名、地址、身份证号等等。
有人就表示,b 站高层的个人信息可能早就被人恶意曝光了。
这一次很可能是 GitHub Copilot 在生成结果时,随机表现出了一些训练数据的特征,这部分数据刚好来自陈睿的隐私信息。
事实上,GitHub 的 CEO Nat Friedman 也回应过类似的问题。
他表示 GitHub Copilot 给出的隐私信息都是假的,是通过训练数据合成而来。
而前不久曝出的 Copilot 抄袭大神代码、原版注释一事,直接让 Nat 这番回应啪啪打脸。
自动生成的代码不仅和原版一样,连 “what the fuck” 那句注释也用上了。
△GitHub Copilot 复刻 Quake 代码
另一方面,GitHub Copilot 是由数十亿行公开代码训练的。
有人认为,这可能是训练集中的原始代码就违反了相关隐私条款。
GitHub Copilot 受到错误代码的影响,意外把陈睿的个人信息从数据集里套了出来。
虽然这次情况可能只是个意外,但是也暴露了 GitHub Copilot 在安全隐私上存在许多风险。
有网友就对 GitHub Copilot 的敏感信息处理,表示担忧:
倒是说会对敏感信息处理,但是我觉得总会有漏的。
小米开源技术委员会主席、小米副总裁崔宝秋则表示,这提醒了用户要注意自己的安全隐私保护,个人数据要记得匿名化。
GitHub Copilot 争议不断
事实上,GitHub Copilot 从上线以来就争议不断:
直接照抄源代码、没有开源许可证;
由公共代码库训练,却要以付费商品上线;
……
除了安全隐私上的风险,openAI 还发现 GitHub Copilot 的模型 Codex 与 GPT-3 一样,会生成带有种族主义或其他伦理问题的结果。
最近,自由软件基金会(Free Software Foundation,FSF)也发出了抗议,他们表示使用 GitHub Copilot 必须运行 Visual Studio IDE 或 Visual Studio Code 这种付费软件,侵犯了用户的权益。
为此,FSF 正在向大众征集 GitHub Copilot 在版权、法律等问题的投稿。
对于这一抗议,GitHub 方面则表示愿意对任何问题持开放态度。
“这是一个全新的领域,我们渴望与开发者就这些话题进行讨论,并引领行业为训练人工智能模型制定适当的标准。”
参考链接:
[1]https://twitter.com/DeltonDing/status/1423651446340259840
[2]https://venturebeat.com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/
[3]https://www.infoworld.com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation.html
推荐阅读
Pandas处理数据太慢,来试试Polars吧!
懒人必备!只需一行代码,就能导入所有的Python库
绝!关于pip的15个使用小技巧
介绍10个常用的Python内置函数,99.99%的人都在用!
可能是全网最完整的 Python 操作 Excel库总结!
B 站 CEO 的身份证被上传到 GitHub 了?相关推荐
- Git的使用-将本地项目上传至Github/Github下载代码至本地-MAC
一.使用的工具 安装Git iTerm 二.初始化操作 1.在github上创建新仓库 登录后,主页点击New repository 输入仓库名(description等可自行根据需求添加) 注意:仓 ...
- Android studio下将项目代码上传至github包括更新,同步,创建依赖
AS中设置GIT 一.开篇 本文讲如何使用Android Studio将项目上传到github,虽然讲上传github的文章很多,但是大部分都是使用Git Bash命令行,虽然效率高些,但是有点麻烦, ...
- 【OpenGL】三、Visual Studio 2019 配置 GitHub ( 将项目上传到 GitHub )
文章目录 一.将解决方案添加到源代码管理 二.首次将代码上传到 GitHub 三.GitHub 项目展示 一.将解决方案添加到源代码管理 在 " 解决方案资源管理器 " 中 , 右 ...
- 怎样将项目上传到github上
怎样将项目上传到GitHub上面ni? 登录到你的GitHub账号 1.new repository 2.填写下面的信息–>create 3.这一步要用到三个git命令. $ git clone ...
- 使用git将本地项目上传到github
这里给大家介绍一下,在GitHub上新建一个空项目,并把本地的项目代码上传到这个空项目中. 前期准备 1.GitHub账号,注册地址:https://github.com/ 2.本地安装git 在Gi ...
- 将本地工程上传到github
将本地工程上传到github 首先需要你有一个github账号,然后添加好SSH key 接下来:需要创建两个库,远程库和本地库,先建立远程库 1. 在github上穿件一个远程仓库 2. 开始建立本 ...
- 如何把本地项目上传到Github上面(详细版)
提前准备: ①注册一个GitHub账号,并完成ssh相应配置.GitHub官网:https://github.com/ ②安装好git工具,这里给出下载地址,下载后一路直接安装即可:https://g ...
- GIT将本地项目上传到Github(两种简单、方便的方法)
GIT将本地项目上传到Github(两种简单.方便的方法) 一.第一种方法: 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安 ...
- 如何把本地idea上的项目上传到github上以及出现invalid authentication data问题的解决措施
注意看标题 是 上传到 github 上,所以你的 github 地址是 : github.com 而不是其他的,基于这个大方向下做以下修改: 第一步: 就需要正在github中创建一个账号:http ...
最新文章
- PHP5 VC9、VC6、Thread Safe、Non Thread Safe各个版本区别
- IOS block 教程
- CVT1100 错误的修复 2009-10-12 11:38
- float排版c语言,如何解决因float带来的排版问题?
- 莫比乌斯,欧拉函数题目练习(完结)
- hbase多master和动态添加节点
- 《DSP using MATLAB》Problem 6.16
- mysql错误代码1怎样解决_打开网页提示mysql发生错误,错误号1194,请问下该怎么解决? 爱问知识人...
- 一个中文字符占几个字节_字节与字符的关系
- vi vim 使用方法
- ABAP术语-Business Components
- 撩课-Java面试宝典-第十六篇
- 第一次使用CoolEdit Pro将歌曲音频做成伴奏
- 规培手册填写模板_肾内科 规培轮转登记手册模板
- 连读、变音、失音、浊化、弱读、节奏
- 外部世界如何访问容器? - 每天5分钟玩转 Docker 容器技术(37)
- 回复git@vger.kernel.org的注意事项
- pyspark学习——统计《少年派的奇幻漂流》(lifeofpi)词频
- MacBook通过MacBook安装Windows系统出现“下载windows支持软件时未能储存到所选驱动器”
- 股票大作手回忆录(读书笔记)
热门文章
- Linux解决编译Apache出现的问题:configure: error: APR not found
- Mysql数值型字符串按照数值进行排序
- php防止报错,php报错:Cannot redeclare class 提示的解决方法
- 交换机端口灯闪烁频率一样_思创易控cetron-新品S2024GE 24口全千兆非网管交换机即将上市!...
- python是谁维护的_Python 库从开发到维护
- 一句话实现php日期转中文汉字
- 完整的url以及同源跨域处理
- php跨域单点登录,SSO单点登录、跨域重定向、跨域设置Cookie、京东单点登录实例分析...
- 计算机专业软件技术专业导论,计算机科学与技术专业导论.docx
- jquery选择器:与、或逻辑