机器之心原创,作者:李亚洲、李泽南。

大家喜闻乐见的 Tumblr(汤不热)凉了……

12 月初,美国著名图片博客网站 Tumblr 宣布将全面禁止任何成人内容。新规定将于 12 月 17 日正式施行。这一行为看来是主动在和「互联网的 30% 流量」说再见,长久混迹 Tumblr 的老司机们送了一首「凉凉」予它。

自 2007 年上线以来,Tumblr 一直以允许 NSFW 内容而闻名(也可能是臭名昭著),这是公司管理层一时的头脑发热还是想要「改过自新」了?不论 Tumblr 的意图如何,想要为社交网络加入审核机制,过滤色情图片/视频是需要投入技术和人力的。

在 Tumblr 的官方通告中,公司 CEO Jeff D’Onofrio 表示,「……(Tumblr) 将采用产业标准的机器监控、不断加大的人类监控等方式禁止成人内容。」

但是,才「睁开眼睛」的计算机并不那么完美。」Wired 在近日的一篇文章中称。许多 Tumblr 用户在 Twitter 上抱怨其鉴别系统存在许多误判行为。如据 Wired 文章,奥克拉荷马大学法学院教授 Sarah Burstein 只是发布了几张设计专利图,就被标记了。文章表示这不仅效率低下,而且伤害了用户的感情。不少 Tumblr 的用户失望地涌向推特,《纽约时报》称这些用户是「弃船而逃」。

其实在多年前,Tumblr 就面临着准确识别 NSFW 内容的问题。2013 年,Yahoo 11 亿美元收购 Tumblr,4 年后 Verizon 收购雅虎,Tumblr 归于 Verizon 子公司 Oath,并在不久之后推出了「安全模式」,能在搜索结果中自动过滤成人内容。

人工智能虽然可以同时处理大量图片,但毕竟不是人类,难免会出现一些令人哭笑不得的差错。特别像 Tumblr 这样的微博客平台,用户群体复杂,色情与非色情的界限非常难以把握。图普科技产品运营总监姜泽荣表示,「(这样的平台在制定标准时)标准过严可能会把摄影作品、艺术作品之类的内容识别为色情内容,伤害用户体验;标准过低则会让平台上的色情内容继续泛滥。此外平台上的内容类型繁多,包含文字、图片、视频、直播等,各个类型的内容实时性不一,审核标准差异大,这无疑都对开发、运营等团队提出高要求。」

图普科技是国内较早使用深度学习技术提供图像和视频内容审核服务的 AI 创业公司。在平台色情内容审核等问题上,图谱向机器之心解释了一些问题。

图像鉴黄系统流程是什么?

鉴黄系统的工作流程是这样的:首先是要建模,其次是制定色情图片的分类标准,然后收集大量素材,进行分类标注,最后用这些标注好的素材进行训练,让机器去学习各个分类里面的特征,不断调整自己模型的参数并最终得到最佳的识别模型。

而当机器对图像进行识别以后,这些图像数据会转化为数字化的信息,带入到模型里面进行计算, 根据计算值将图片标注为「正常、性感、色情」三个类别。

因为「识别」的不完美性,这样的系统也会有人类的参与。在经过识别之后,系统把判断结果和概率告诉使用方,使用方会再根据结果做对应处理,比如自动删除、或者人工接入复审。如果在人工复核环节发现机器识别有误,则会有针对性地对相同场景的图片进行数据学习, 并调整参数, 直到错误率达到最低值。

AI 鉴黄的技术核心是深度学习理论(Deep Learning)。通俗来讲,可以把深度学习理解为一个空白的大脑,海量数据就是灌输进来的经验。当我们把大量的色情、性感、正常的样本的属性告诉深度学习的引擎,让引擎不断学习,然后把他们做对的进行奖励,做错的就惩罚,当然这些奖励和惩罚都是数学上的,最后空白的脑袋就会学成了一种连接的模型,这种模型就是为了鉴别色情与非色情而生的。

深度学习就是人工神经网络(Artificial Neural Network,以下简称 ANN)。要了解 ANN,让我们先来看看人类的大脑是如何工作的。

人脑的视觉处理系统(图片来源:Simon Thorpe)

上图表示人理解外界视觉信息的过程。从视网膜(Retina)出发, 经过低级的 V1 区提取边缘特征,到 V2 区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的 PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。

深度学习恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别),然后在这些低层次表达的基础上通过线性或者非线性组合,来获得一个高层次的表达。此外,不仅图像存在这个规律,声音也是类似的。

现在来看深度学习的简易模型。

传统的神经网络与深度神经网络(图片来源网络)

深度学习的一个主要优势在于可以利用海量训练数据(即大数据),在学习的过程中不断提高识别精度,但是仍然对计算量有很高的要求。而近年来,得益于计算机速度的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才逐渐可用于工业化。

对于开发团队来说,做该领域的产品困难在于如何获取大规模已标注数据、集成有 GPU 的计算集群以及针对自己的项目调参数,团队需要不断地输入新数据,持续迭代以提高机器识别准确率。

既有图片又有视频怎么办?

在短视频流行的今天,各家科技公司还要面对海量的视频内容。图片是静态的,视频/直播是动态的,而视频内容的完整审核包括对图片、文字、语音的审核,所以会更加复杂。以对视频图片审核为例,在鉴别视频和直播时,可以先把动态的内容解码成图片帧,这就与静态图片鉴别方法相似了。

直播实时性强,对响应时间要求高,并且里面的场景和人物变化比较大,审核要求比较严格,所以识别难度会相对比较大,需要实时不断对房间进行截帧传输识别,并且结合人工来实现预警处理;视频在画质整体上比图片和直播差,一定程度会影响识别效果,通常是以视频为单位进行等时间间隔截图,以一个视频多张截图的结果来综合判断视频是否色情违规。

如果企业对视频或直播的每一帧图片都进行识别,数据量将变得非常巨大,运营成本会很高。面对这类情况,一般会采用对视频抽帧的方式进行处理。例如,一分钟视频,可以按照时间段来抽取 6-15 帧左右的图片进行识别处理,以此减少计算成本。

审核能否完全依赖机器?

针对人们屡屡吐槽的「误杀」问题,图谱认为在提高 AI 算法准确度的同时目前还需依靠人类做最后的判断。误判分为两大类型:把色情内容误判为正常内容,以及把正常内容误判为色情内容。

1)色情判正常:在光线昏暗场景,或者距离很远时背景干扰比较大的场景下,以及有特效干扰的情况都有可能造成误判;衣着正常但实际上露点、隐晦的动作和姿势等。

2)正常判色情:穿着暴露但实际没露点,物体形似性器官,接近于色情动作但实际不是(譬如手抓棍状物体、手正常放在敏感部位)等。

机器能够帮助企业大幅提升审核效率和准确率。以图普科技的鉴黄系统为例,每天可审核近 10 亿张图片,识别准确率高于 99.5%,可为企业节省 95% 以上的审核人力。但在现阶段甚至很长一段时间内,人工智能鉴黄无法完全代替人工鉴黄。因为机器还很难理解内容背后的深意,也不会在不同文化场景中做自由切换。所以推荐以机器+人工的审核方法。

单纯的算法和模型是可以把机器训练到完全正确地判断情况的,但是在实际应用中,机器没有自主思考和自己的主观意识,仍然需要人工辅助进行确认。例如客户提供的画面过于模糊或者说光线过暗,以及训练数据的不能完全覆盖性等种种客观原因影响下,机器打不出很高的分确认图片,这都需要人工来辅助。

「Tumblr 网友:即使这样我也爱你。」

看来,AI 图像识别系统可以用现有的,「鉴黄师」则非请不可。在宣布禁止成人内容之后,Tumblr 的 app 终于再次出现在苹果应用商店里。这辆车最终会开向何处?让我们拭目以待。

Tumblr扫黄正式开始!AI鉴黄也许是老司机们的头号敌人相关推荐

  1. AI鉴黄、选美、骂人、杀同类 这些年跑偏的人工智能会笑哭你

    关注网易智能,聚焦AI大事件,读懂下一个大时代! 本文授权转载自企服行业头条 几天前,"吻戏鉴定师"吉恒杉火遍AI(人工智能)圈,为了训练机器识别接吻的图片和视频,这位29岁的小伙 ...

  2. 阿里招“AI鉴黄体验官”:日薪1000!网友:钱不钱无所谓,净化互联网人人有责!...

    灵隐寺的工作有没有让心动吗?没有的话,阿里的这个职位,是不是足够让你心动呢? 就在前些日子,阿里在微博上发布了一则火爆互联网圈子的招募活动,号称:"全网不斥巨资的最强招募令". 什 ...

  3. AI一分钟 | 别了老司机!深圳无人驾驶公交车霸气上路;乌镇上演最强饭局,丁磊王兴刘强东大宴宾客

    一分钟AI 美剧<硅谷>再现NIPS大会,英特尔请来Flo Rida暖场AI演讲 互联网大佬的乌镇饭局刷爆朋友圈 博通正式启动恶意收购:周一提交高通新董事提名 深圳无人驾驶公交车上路试运营 ...

  4. AI x 量化:华尔街老司机解密智能投资正确姿势

    随着中国经济的腾飞,中产阶级的崛起,投资管理逐渐步入寻常百姓家. 值得注意的是,在十年前"无财可理"问题解决后,另一个矛盾愈发凸显--层次不齐的投资素质.据wind数据统计,200 ...

  5. AI算法起家的今日头条为何败给了色情?一文告诉你机器学习何以搞不定鉴黄

    12月29日,国家互联网信息办公室在官网发布消息称,针对今日头条.凤凰新闻手机客户端持续传播色情低俗信息.违规提供互联网新闻信息服务等问题,要求北京市互联网信息办公室分别约谈两家企业负责人,责令企业立 ...

  6. 如何利用图像识别、语音识别、文本挖掘做好鉴黄?

    雷锋网按:人工智能鉴黄市场竞争愈发激烈,目前图普科技.阿里绿网.腾讯万象优图等团队已占据大量市场份额,在此环境下,不少公司试图通过提供更全面的服务从这片红海中分一杯羹. 那么更全面的定制服务体现在哪些 ...

  7. 阿里巴巴招募鉴黄体验官,日薪1000元,小姐姐优先,要求阅“片”无数

    5月26日,阿里巴巴集团安全部通过官方微博@知安局发布了"全网不斥巨资的最强招募令",向全网网友发起了"AI鉴黄一日体验官"的招募活动. 而这个活动内容就是,邀 ...

  8. 阿里最新招募:“鉴黄”体验官,日薪1000元

    上一篇:3600万中国人在抖音"上清华" 5月26日,阿里巴巴集团安全部通过官方微博@知安局 发布了"全网不斥巨资的最强招募令",向全网网友发起了"A ...

  9. 某鉴黄师:“我并不幸福”,AI加持下CDN鉴黄又是何物?

    鉴黄师大概是属于最初怀有丰满的幻想, 却不料被一次次残暴的现实无情的摧残! 某知名互联网公司面向社会(年薪20万)招聘鉴黄师,每天的工作就是识别色情淫秽网站,即利用上班时间浏览黄网! 当很多人看到这种 ...

最新文章

  1. 分布式事务 GTS 的价值和原理浅析
  2. 营业收入快速增长 Twilio 云通信成就大牛股
  3. 推荐一个MDI模式的远程桌面管理程序
  4. android 自定义progressbar demo,Android 自定义进度条ColorfulProgressbar,原理简单、效果还行...
  5. java基础--IO流之File类
  6. python控制台输入代码_Python实现控制台输入密码的方法
  7. 华为P50标准版规格曝光:或搭载骁龙888 4G
  8. 如何处理Long类型精度丢失问题?
  9. 敏感词过滤算法:前缀树算法
  10. 【Linux】用户必须知道的常用终端快捷键
  11. 罗胖又有“惊人之语”:内容收费的窗口期正来到
  12. 【2017西安邀请赛:A】XOR(区间异或最大值多次查询---线段树+线性基合并)
  13. 操作系统实验·动态分区分配算法
  14. JAVA练习55-最小的k个数
  15. jquery.nicescroll参数说明
  16. 仿iPhone通讯录制作小程序自定义选择组件
  17. Renesas:RH850的FCL库移植与使用
  18. Windows8 RP版亲手体验全过程
  19. 如何写SCI论文的摘要
  20. 【Renesas RA6M4开发板之UART与Serial studio串口交互】

热门文章

  1. python程序设计机械工业出版社课后答案-Python 3程序设计基础
  2. python中批量将矩形图片转化为正方形图片,并且缩放
  3. 在Window10子系统Ubantu创建conda环境
  4. phpmywind 子菜单调用
  5. Codeforces 300D Painting Square 题解
  6. 《炬丰科技-半导体工艺》柠檬酸清洗液对金属表面污染物去除效果评价
  7. 遗传算法(Genetic Algorithm)从了解到实例运用(上)(python)
  8. 有关神经网络的训练算法,神经网络算法通俗解释
  9. python 抓取头条街拍图片
  10. OpenCV/kornia/Pillow/Halcon/NI Vision/MIL/*计算机视觉资料汇总