原创:谭婧

互联网上每天产生多少句脏话?这是一个谜。但是,从Facebook公司2020年第一季度的《透明度报告》里,可以窥到一些面貌。

自2018年5月以来, Facebook公司以季度为周期发布报告,解释其辛苦的幕(zi)后(jin)工(tou)作(ru)。

在2020年第一季度,公司更是成功删除960万条“脏话”内容。这是一个创纪录的数字,高于2019年第四季度的570万条,也超过了2019年第三季度的700万条。

2020年第一季度的全球公众卫生事件,人们有不少坏情绪。  

“脏话”是简称,直白的理解是,偏激、仇视性话语(Hate Speech)。民间脏话、方言脏话、描述部分人体器官、人身攻击、种族歧视、性别歧视大抵都包括在内,如果有没有想到的,还望海涵。

每天,打开手机APP,就看见键盘侠“口吐芬芳”,令人大倒胃口。然而,互联网上脏话的量级,人工删除是删不过来的,而且还会误判。

Facebook公司的方法是,用人工智能技术狙击。

  

但凡审查,就会有漏查。Facebook公司《透明度报告》有一个缺陷,就是它没有提漏查的程度。

透明与公开,是与公众沟通的高明手段,蠢货只有闭嘴这一招。Facebook公司虽然没有满分,但也提供了“榜样”。

让我们看到真善美的存在,也要看到假恶丑如何被干掉。

在Facebook公司第一季度删除的960万个帖子中,软件系统检测到88.8%(在用户看到信息并举报之前)。这表明该算法用机器标记了850万个“脏话”帖子,比上一季度的460万个增长了86%。

2020年第一季度,除了病毒蔓延,“脏话”也在蔓延。

Mike Schroepfe,自2013年3月以来一直担任Facebook公司的首席技术官。他借《透明度报告》发布的机会,重点打了一轮人工智能技术的广告,宣传了该公司自然语言处理技术的进步。

他说:“我们的语言模型变得更大,更准确,更细微了。能够发现细致微妙的东西。”

可惜,Schroepfer并没有解释说明这些系统审查的精确程度,只是说Facebook在部署系统之前对其进行了广泛的测试(测试机器误判的情况)。

毕竟一个把正常表达识别错误的机器,也很让用户恼火。

回忆诗人顾城的段子。  

Mike Schroepfe引用了新报告中的数据,这些数据表明,尽管在最近的25 - 130万条中,用户更经常地对删除内容的决定提出申诉(有可能是骂骂咧咧习惯了,突然被删,很是不服气),但后来执意恢复的帖子数量有所减少(习惯了)。

Facebook的数据并未表明仇恨言论在其算法网络中漏失了多少。该公司的季度报告估计了Facebook规则禁止的某些类型的内容的发生率,但没有“脏话”内容。新闻官宣显示,自2019年夏天以来,暴力帖子数量有所下降。Facebook公司“仍在制定一项全球指标”。

缺失的数据掩盖了社交网络的脏话言论的真实规模。

西雅图大学副教授凯特琳·卡尔森(Caitlin Carlson)说道:“与Facebook庞大的用户网络以及用户对令人不安的内容的观察相比,删除的帖子数目(960万条)看起来太少了。“

教授认为,960万条“脏话”,这一数据还不够真实?

  无独有偶,卡教授在2020年1月份发布了一项实验结果。她和一位同事收集了300多个Facebook帖子(样本),这些帖子明显违反了规则,实验人员用服务工具进行了举报。追踪结果显示,最终只有大约一半的帖子被删除。

卡教授这一实验结果,在挑战Facebook。同时,她也发现,同样是“口吐芬芳”,算法对种族歧比在歧视女性方面更为严格。不知道Facebook高管桑德拉看后作何感想。

Facebook表示,对算法找到(标记)的内容与用户报告的处理相同。流程上确定是直接删除,还是警告处理。可能流程上要流转到下一环节,人工审核者。(或者仍由软件判定,视情况而定。)

这时候,要谈谈人工审核员工的苦楚了。

2020年5月,Facebook公司同意支付5200万美元与内容审查团队的员工达成和解。原因很惊人,审查帖子导致他们患上了精神创伤,已获法庭鉴定。外媒The Verge之前详细报道了这一消息。

  

消息原文:“Facebook承认内容审核会给员工造成巨大的损失,这一次,是具有里程碑意义的承认。Facebook同意向现职和前任审核人员支付5200万美元,以补偿他们因工作出现的心理健康问题。

在美国圣马特奥高等法院提出的一项初步和解中,Facebook公司同意支付赔偿金,并在他们工作期间给与更多帮(tong)助(qing)。”

天天看这些脏话的人,都受了内伤。当然,这得算工伤。

  

在“剑桥门”事件后,审核报告是Facebook公司透明度程序的一部分,这一程序还包括聘请一个新的外部专家小组(有没有研究脏话的专家?),该小组有权推翻该公司的审核决定。

讲道理,只有董事会才是公司最高权力机构。

公司协调外部力量参与的力度很大。毕竟罚金有点高,这样下去,扎克伯格就会比亚马逊公司的贝佐斯穷多了。

(“剑桥门”事件,脸书认罚50亿,当然是美金。)  卡教授继续与Facebook公司正面硬刚(我还挺欣赏她的执着)。她表示,Facebook公司的披露似乎表明该公司可以自我监管,但报告有缺陷。

她说:“要与公司进行对话,我们需要数据。”

当被问及为何不报告“脏话”言论泛滥情况时,Facebook公司发言人指出,该报告的衡量标准“正在缓慢扩展,以覆盖更多的语言和地区,以考虑到文化背景和个别语言的细微差别” 。

定义和检测“脏话”是Facebook和其他平台面临的最大社会和技术挑战之一。

在全球多元文化背景下,即使是人类分辨内容,也是需要花一番功夫的。举个例子,有抖音号教青岛方言表扬人用“赤丝”,请自行体(bai)会(du)一下。

  

自动化是很棘手的,因为人工智能距离人类对文本的理解还有很长的路要走,理解文本和图像共同传达的微妙含义的算法的研究才刚刚开始。

Schroepfer说道:“机器学习算法在语言学研究的帮助下,Facebook已经升级了检测算法。许多高科技公司正在对其处理语言的软件系统(例如谷歌的搜索引擎)进行改造,提高用算法解决诸如回答问题或澄清歧义等语言问题的能力。”

他强调:“(这是)重大改进。”

Schroepfer还明确指出,这些改进并不能使技术达到完美。  

《透明度报告》透露出,在内容审查和审核方面,Facebook重兵布防人工智能。脏话会影响社交网络的根基,人工智能再昂贵也要用起来。  Facebook表示,它已经创建了超过10000个仇恨语音模因(模因是许多人在互联网上相互发送的东西,如视频,图片或短语)的集合,这些模因结合了图像和文本,并激发新的研究。

该公司将向研究小组提供10万美元的奖金,激励这些研究小组开发出能够最好地发现可恶的模因与良性内容相混合的开源软件。

 

美国还在对社交媒体内容中的“脏话”监管采取放任不管的态度。

德国2017年通过了《网络执法法》(NetzDG),该法要求拥有或超过200万用户的社交媒体公司必须删除或阻止访问报告的内容,因其违反了德国刑法对仇恨言论的限制(《网络实施法》,2017)。

公司必须在收到通知后的24小时内删除“明显的仇恨言论”,否则将面临5000万美元的罚款(Oltermann,2018年)。

值得一提的是,在2019年恐怖主义袭击了新西兰的两座清真寺之后,全球领导人与脸书、谷歌、推特等其他公司高管会面,共同制定了一套名为《基督城召唤》(Christchurch Call)的全球反恐准则,制定针对极端、暴力,以及仇视性言论。

更值得一提的是,美国没有签署承诺。 

远在海外的抖音国际版(Tiktok)也发布了《透明度报告》(2019年12月),只有五页纸。

别问为什么,被逼的。 互联网公司有无可比拟的力量来塑造人类话语世界,偏激言论遍地开花,其处理和删除情况却鲜为人知。《透明度报告》也适用于新浪微博等国内互联网平台公司。敢问一句,现在是什么样的世道?先进技术和生产力都用来和“脏话”做斗争了。

(完)

《亲爱的数据》出品

更多阅读:

1. 喝杯牛奶,太南了?

2. 美国已死,欧洲苟活,消失的人工智能 “法外之地”

3. 专访商汤科技联合创始人林达华丨一名AI人才,需要多少栽培?

4. 银行数据里有钱,隐私数据里有命,20个你不知道的GDPR知识点?

  

欢迎点“在看”

Facebook公司:如何删掉960万句“脏话”?相关推荐

  1. Facebook 公司:如何清除 960 万句“脏话”?

    作者 | 谭婧 题图 | 视觉中国 来源 | 亲爱的数据(ID: deardata) 互联网上每天产生多少句脏话?这是一个谜.但是,从Facebook公司2020年第一季度的<透明度报告> ...

  2. 大学毕业论文字数有上限吗,我写了一万六千字,指导老师让我删掉一万字关键第二天就要交,怎么办?...

    毕业论文的字数是有学校规定限制的,一般本科的字数为8000-12000字, 也有一些学校的字数要求是2万以上,不同学校的要求不同,建议你下载下 本校的毕业写作规范,上面会有明细的要求,包括写多少字,查 ...

  3. 2021-01-19:mysql中,一张表里有3亿数据,未分表,其中一个字段是企业类型,企业类型是一般企业和个体户,个体户的数据量差不多占50%,根据条件把个体户的行都删掉。请问如何操作?

    2021-01-19:mysql中,一张表里有3亿数据,未分表,其中一个字段是企业类型,企业类型是一般企业和个体户,个体户的数据量差不多占50%,根据条件把个体户的行都删掉.请问如何操作? 福哥答案2 ...

  4. sqlyog.err文件可以删掉吗_苹果备忘录删掉的东西可以找回来吗?可以恢复被删内容的便签备忘录软件...

    苹果不但是一种水果,还是美国的一个科技公司,随着它自身不断的进步,越来越多的人们开始使用苹果公司旗下的设备.在使用苹果设备的时候,备忘录是一个很实用的辅助工具,苹果备忘录删掉的东西可以找回来吗?有没有 ...

  5. 电脑账户头像怎么删掉_情侣头像丨情侣头像一男一女背影

    情侣头像丨情侣头像一男一女背影 提示:点击放大图片,长按保存 人生三境界:一是独上高楼,望尽天涯路";二是衣带渐宽终无悔,为伊消得多少人看似没心没肺,却掩饰了心中的悲伤.我只拥有,一个人的寂 ...

  6. s2sh删掉原本的s2sh project capabilities后重新添加它们

    1.找到你编写的项目所在的路径,可通过右键你的myeclipse工作区里的项目名,单击属性properties来查看: 2.点开你的项目文件,找到最后一个文件名为.project,并打开: 3.找到最 ...

  7. 蔚来2018年平均每天亏掉2641万,车辆交付预期环比腰斩

    三井 发自 凹非寺  量子位 报道 | 公众号 QbitAI 电动汽车,真是一个烧钱的行当. 从蔚来汽车的财报中,可以窥见一斑. 3月6日,蔚来发布2018年第四季度及全年财报,经营状况得到披露. 平 ...

  8. 马云:搞AI严防叶公好龙;李彦宏:不拥抱AI的公司会死掉

    雷刚 发自 西岸艺术中心 量子位 出品 | 公众号 QbitAI 2018世界人工智能大会今天在上海开幕. 这场大会的主办单位包括:国家发改委.科技部.工信部.网信办.中国科学院.中国工程院.上海市人 ...

  9. 电脑中删掉的照片怎么恢复

    办公室的电脑实在是太旧了,满足一般文员办公还行,但是对于我们这些设计师来说.根本不能满足需求,本来不需要加班的,因为电脑也要加班.没办法,我经常带自己的电脑去上班.趁着这次任运扩招,我们提出了换电脑的 ...

最新文章

  1. 密度聚类算法DBSCAN实战及可视化分析
  2. c语言gets多组测试,C语言如何实现输入多组数据测试
  3. 天津大学计算机在线作业答案,天大19秋《计算机应用基础》在线作业二【满分答案】...
  4. 什么是工业光纤收发器,工业收发器的作用是什么?
  5. 查看linux服务器dns,Linux中查看和设置DNS服务器
  6. 简单手绘背景绘画过程-------树!
  7. libfaac个个参数说明
  8. 程序员求职之道(《程序员面试笔试宝典》)之程序设计基础(static的使用)?...
  9. 飞贷金融科技董事长唐侠:攻占小微金融全球制高点 | 一点财经
  10. F2FS源码分析-3.1 [F2FS 文件创建和删除部分] 一般文件的创建
  11. 词云图,词频图,专门统计某些关键词的词云词频
  12. Readyboost功能
  13. 迈克尔·霍利:当我看到人们急着加入新行列、抛弃高度发展的老技术时,我就感到很伤心
  14. 想找个娇小可爱的女孩
  15. IntelliJ IDEA 15 MAC破解版
  16. iphone ipad等苹果设备30针数据线接口定义,大家可能有用
  17. 随机读写 vs 顺序读写
  18. 一个python+flask和SQLite的数字查找以及Dataload命令生成的小工具
  19. linux 喂狗时间,看门狗喂狗时间及程序
  20. c++ HDU 1279 士兵队列训练问题

热门文章

  1. Linux 服务器部署 vue(SPA) 与 nuxt(SSR)项目
  2. TW6869 drivers porting for freescaleandroid
  3. 热点综述 | 纵向微生物组研究的统计方法总结
  4. 进击的马云,失落的码农
  5. css加密数据 图片解析破解
  6. iOS小技能:短信验证码的Checklist、格式校验、获取验证码处理流程(限制60s)
  7. html中用form单选框右侧提示汗字,HTML表单(Forms)解析
  8. css 心形动画 爱心动画
  9. 静态HTML网页设计作品 仿唯品会购物商城(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 商城网站设计
  10. ORACLE-EBS常用表