来源丨量子位(ID:QbitAI)
明敏 发自 凹非寺

AI 自动补全代码,结果补出来了一张别人的身份证?

GitHub Copilot 又出神操作了。

有人在推特上晒图,表示自己在使用 GitHub Copilot 时,它竟然给补全出了一张身份证信息出来。

输入 B 站 CEO 陈睿的信息后,下方竟然自动补出了身份证号

这操作确实够吓人的。

网友就表示:恐成社工库利器啊!

不过恐慌之际,眼尖的网友们很快发现了问题:

显示的身份证号其实是假的,其中出生年份和校验位明显都是错的。

陈睿应该是 1978 年生,而这里的证件号上显示为 1988。

叔叔我啊,变年轻了

也就是说,这串所谓的身份证号,其实是 GitHub Copilot 自动生成的假数据

这让人们提起来的心稍微放下了一些。

但是原本是生成代码的 GitHub Copilot,怎么会生成个人隐私信息呢?

吃了的,不经意又吐出来

这和 GitHub Copilot 的工作原理有一定关系。

GitHub Copilot 由 Codex 模型支持,它可以看做是 GPT-3 的升级版,既能看懂代码、也能看懂自然语言。

一方面,GitHub Copilot 为了能看懂注释,需要接受像 GPT-3 一样的语言训练。

语言模型在生成结果时,往往会随机表现出某些训练数据的特征。

也就是模型 “记住了” 见过的数据信息,处理任务时,把它 “吃进去” 的训练数据又 “吐了出来”。

而对于 GPT-3、BERT 这些超大型语言模型来说,训练数据集的来源往往包罗万象,大部分是从网络公共信息中抓取,其中免不了个人敏感信息,比如姓名、地址、身份证号等等。

有人就表示,b 站高层的个人信息可能早就被人恶意曝光了。

这一次很可能是 GitHub Copilot 在生成结果时,随机表现出了一些训练数据的特征,这部分数据刚好来自陈睿的隐私信息。

事实上,GitHub 的 CEO Nat Friedman 也回应过类似的问题。

他表示 GitHub Copilot 给出的隐私信息都是假的,是通过训练数据合成而来。

而前不久曝出的 Copilot 抄袭大神代码、原版注释一事,直接让 Nat 这番回应啪啪打脸。

自动生成的代码不仅和原版一样,连 “what the fuck” 那句注释也用上了。

GitHub Copilot 复刻 Quake 代码

另一方面,GitHub Copilot 是由数十亿行公开代码训练的。

有人认为,这可能是训练集中的原始代码就违反了相关隐私条款。

GitHub Copilot 受到错误代码的影响,意外把陈睿的个人信息从数据集里套了出来。

虽然这次情况可能只是个意外,但是也暴露了 GitHub Copilot 在安全隐私上存在许多风险。

有网友就对 GitHub Copilot 的敏感信息处理,表示担忧:

倒是说会对敏感信息处理,但是我觉得总会有漏的。

小米开源技术委员会主席、小米副总裁崔宝秋则表示,这提醒了用户要注意自己的安全隐私保护,个人数据要记得匿名化。

GitHub Copilot 争议不断

事实上,GitHub Copilot 从上线以来就争议不断:

直接照抄源代码、没有开源许可证;

由公共代码库训练,却要以付费商品上线;

……

除了安全隐私上的风险,openAI 还发现 GitHub Copilot 的模型 Codex 与 GPT-3 一样,会生成带有种族主义或其他伦理问题的结果。

最近,自由软件基金会(Free Software Foundation,FSF)也发出了抗议,他们表示使用 GitHub Copilot 必须运行 Visual Studio IDE 或 Visual Studio Code 这种付费软件,侵犯了用户的权益。

为此,FSF 正在向大众征集 GitHub Copilot 在版权、法律等问题的投稿。

对于这一抗议,GitHub 方面则表示愿意对任何问题持开放态度。

“这是一个全新的领域,我们渴望与开发者就这些话题进行讨论,并引领行业为训练人工智能模型制定适当的标准。”

参考链接:
[1]https://twitter.com/DeltonDing/status/1423651446340259840
[2]https://venturebeat.com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/
[3]https://www.infoworld.com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation.html

推荐阅读

Pandas处理数据太慢,来试试Polars吧!

懒人必备!只需一行代码,就能导入所有的Python库

绝!关于pip的15个使用小技巧

介绍10个常用的Python内置函数,99.99%的人都在用!

可能是全网最完整的 Python 操作 Excel库总结!

B 站 CEO 的身份证被上传到 GitHub 了?相关推荐

  1. Git的使用-将本地项目上传至Github/Github下载代码至本地-MAC

    一.使用的工具 安装Git iTerm 二.初始化操作 1.在github上创建新仓库 登录后,主页点击New repository 输入仓库名(description等可自行根据需求添加) 注意:仓 ...

  2. Android studio下将项目代码上传至github包括更新,同步,创建依赖

    AS中设置GIT 一.开篇 本文讲如何使用Android Studio将项目上传到github,虽然讲上传github的文章很多,但是大部分都是使用Git Bash命令行,虽然效率高些,但是有点麻烦, ...

  3. 【OpenGL】三、Visual Studio 2019 配置 GitHub ( 将项目上传到 GitHub )

    文章目录 一.将解决方案添加到源代码管理 二.首次将代码上传到 GitHub 三.GitHub 项目展示 一.将解决方案添加到源代码管理 在 " 解决方案资源管理器 " 中 , 右 ...

  4. 怎样将项目上传到github上

    怎样将项目上传到GitHub上面ni? 登录到你的GitHub账号 1.new repository 2.填写下面的信息–>create 3.这一步要用到三个git命令. $ git clone ...

  5. 使用git将本地项目上传到github

    这里给大家介绍一下,在GitHub上新建一个空项目,并把本地的项目代码上传到这个空项目中. 前期准备 1.GitHub账号,注册地址:https://github.com/ 2.本地安装git 在Gi ...

  6. 将本地工程上传到github

    将本地工程上传到github 首先需要你有一个github账号,然后添加好SSH key 接下来:需要创建两个库,远程库和本地库,先建立远程库 1. 在github上穿件一个远程仓库 2. 开始建立本 ...

  7. 如何把本地项目上传到Github上面(详细版)

    提前准备: ①注册一个GitHub账号,并完成ssh相应配置.GitHub官网:https://github.com/ ②安装好git工具,这里给出下载地址,下载后一路直接安装即可:https://g ...

  8. GIT将本地项目上传到Github(两种简单、方便的方法)

    GIT将本地项目上传到Github(两种简单.方便的方法) 一.第一种方法: 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安 ...

  9. 如何把本地idea上的项目上传到github上以及出现invalid authentication data问题的解决措施

    注意看标题 是 上传到 github 上,所以你的 github 地址是 : github.com 而不是其他的,基于这个大方向下做以下修改: 第一步: 就需要正在github中创建一个账号:http ...

最新文章

  1. PHP5 VC9、VC6、Thread Safe、Non Thread Safe各个版本区别
  2. IOS block 教程
  3. CVT1100 错误的修复 2009-10-12 11:38
  4. float排版c语言,如何解决因float带来的排版问题?
  5. 莫比乌斯,欧拉函数题目练习(完结)
  6. hbase多master和动态添加节点
  7. 《DSP using MATLAB》Problem 6.16
  8. mysql错误代码1怎样解决_打开网页提示mysql发生错误,错误号1194,请问下该怎么解决? 爱问知识人...
  9. 一个中文字符占几个字节_字节与字符的关系
  10. vi vim 使用方法
  11. ABAP术语-Business Components
  12. 撩课-Java面试宝典-第十六篇
  13. 第一次使用CoolEdit Pro将歌曲音频做成伴奏
  14. 规培手册填写模板_肾内科 规培轮转登记手册模板
  15. 连读、变音、失音、浊化、弱读、节奏
  16. 外部世界如何访问容器? - 每天5分钟玩转 Docker 容器技术(37)
  17. 回复git@vger.kernel.org的注意事项
  18. pyspark学习——统计《少年派的奇幻漂流》(lifeofpi)词频
  19. MacBook通过MacBook安装Windows系统出现“下载windows支持软件时未能储存到所选驱动器”
  20. 股票大作手回忆录(读书笔记)

热门文章

  1. Linux解决编译Apache出现的问题:configure: error: APR not found
  2. Mysql数值型字符串按照数值进行排序
  3. php防止报错,php报错:Cannot redeclare class 提示的解决方法
  4. 交换机端口灯闪烁频率一样_思创易控cetron-新品S2024GE 24口全千兆非网管交换机即将上市!...
  5. python是谁维护的_Python 库从开发到维护
  6. 一句话实现php日期转中文汉字
  7. 完整的url以及同源跨域处理
  8. php跨域单点登录,SSO单点登录、跨域重定向、跨域设置Cookie、京东单点登录实例分析...
  9. 计算机专业软件技术专业导论,计算机科学与技术专业导论.docx
  10. jquery选择器:与、或逻辑