人工智能技术除了在自动驾驶,智能安防,智慧金融等领域得到广泛应用,在互联网内容审核领域也发挥着巨大价值,AI鉴黄就是应用之一。对AI内容审核技术来说,高质量的训练数据集必不可少,景联文为相关技术服务厂商提供数据解决方案,包括敏感色情数据库,定制化数据采集,定制化数据标注等服务。

社交网络平台的信息传播具有迅速、碎片化的特点,软色情、打擦边球的低俗内容更容易获取流量,污染平台内容环境,是全球内容平台治理的共同难题。这几年随着直播和短视频的爆发,加剧了网络低俗内容的泛滥,在此背景下,国家对内容审核的要求越来越严,监管政策不断收紧,要求各大网络平台增强网上涉低俗色情信息内容的鉴别过滤能力。

面对爆发的网络数据,靠人力去完成审核无疑是痴人说梦。

通过研究人工智能技术,很多科技算法厂商使AI在互联网内容审核领域得到落地,为电商、直播、社区、新闻等第三方平台提供内容审核服务,行业领先的企业主要有百度智能云,阿里绿网,网易易盾,图普科技等。

以百度智能云为例,主要提供图像审核,视频审核,语音审核,文本审核等人工智能审核方案。

图像审核:

基于深度学习技术,准确过滤图像中的色情、暴恐、政治敏感、广告、恶心、不良场景等违规内容。

可以应用于社交应用图像审核,对实时聊天中的敏感图像进行高效过滤审核;可以应用于社区论坛图像审核,对社区、论坛、贴吧等平台中的图像进行审核,过滤色情、暴恐、政治敏感、恶意推广等内容;可以应用于用户头像审核,对图像中人脸的角度、遮挡、占比、清晰度等进行审核,确保图像中包含清晰人物正脸、非明星/卡通人脸,并且无色情、暴恐、政治敏感、微商广告、各类联系方式内容。

视频和语音审核:

对视频文件或直播视频流进行图像和音频两大维度的审核,有效过滤图像中的色情、暴恐、政治敏感、广告、恶心、不良场景等违规内容。可以应用于视频直播,对视频、直播的截帧图像进行实时自动审核,实时检测UGC短视频社区用户自主上传视频的违规内容,对涉黄语音,娇喘,广告语音进行精准识别,快速高效,过滤违规内容。

文本审核:

基于自然语言理解、深度学习等技术,有效识别色情、暴恐涉政、恶意推广、辱骂、违反广告法、涉及违禁品等文本内容。具体的应用场景比如视频直播中的弹幕和社区论坛的留言,对用户评论信息进行检测,一旦发现用户提交违规内容,进行自动审核与实时过。适用于各种内容生产和分发平台,能够准确识别出文本中的色情、低俗、涉政、违禁等内容,避免用户上传违规内容到平台。

AI鉴黄使用的人工智能技术主要有深度学习目标检测、图像分类、特征检索、语音识别、声纹识别小语种识别、OCR技术、NLP技术、上下文语义识别等,对图像,视频,语音,文本中的局部和全局信息进行分析,捕获不同类型的色情和其他违禁内容,并对其进行处理。

简单来说,鉴定一张图片是否是色情图片,需要通过深度学习和海量数据库得到一个鉴黄模型,该模型通过分析数据的特征对其进行分类,最终给出该数据是否属于色情数据的结果。在这其中,存在两个难点和重点。

第一是标准。判断标准是人为界定,涉黄内容也分很多种,色情、性感、低俗等信息分类在人类不同文化里尚有不同解读标准,而且针对不同场景,根据实时的法规政策和舆论动向,审核标准可能存在变化,因此需要根据实际情况不断清晰化和细分化分类标准。目前对绝大多数算法厂商来说,使用AI技术先把大部分违规内容辨别出来,对剩余少量难判断、打擦边球、隐晦的内容,仍然需要人工审查介入,来做到双重保险。

第二,既然使用到人工智能技术,训练数据的质量好坏对算法调试的影响是非常重要的,优质数据支撑高质量的算法模型。在确定了违禁数据的定义后,需要收集大量样本数据,去进行样本模型调优和数据集再训练,目的是让计算机拥有更高智慧,理解人类的情感、价值观、潜意识,以及联想能力,以减轻审核员的压力。这个工作会耗费大量的时间和人力成本,并且需要一直进行。与之对应的是,AI鉴黄的优化进程也永远没有尽头,因为总有网络不法分子用各种方式试图突破和对抗科技厂商的安全策略。

景联文科技是AI基础数据服务行业领先的数据采集标注供应商,为AI鉴黄和其他智能内容审核算法提供一站式数据解决方案,帮助相关科技算法厂商降低算法模型训练成本,节省研发时间。

用来训练的数据集数量是否匮乏、场景是否丰富、类别特征是否明显,以及是否存在干扰检测因素(如人为遮挡,画中画),都将影响模型鉴定的准确率。

景联文科技推出相关图像和文本标注数据集,在标注方面,标注类型主要有文本标注,图像拉框和人像语义分割。文本标注标注行级文本的四边框,检测框精度不低于95%,文本转写精度不低于95%,图像标注四边形框顶点偏差不超过五个像素,人像语义分割,可以用来训练图像分类器,鉴黄模型,目标检测,人体实例分割,人体行为识别等任务。

自有标注平台,涵盖了绝大多数主流标注工具,支持语义分割、拉框标注、多边形标注、关键点标注、3D点云、2D3D融合标注、图片分类、声纹识别、ASR转写、韵律标注、NLP、文本分类、OCR转写、情绪判断等多种标注业务;提供企业私有化部署、跨地区作业等定制服务。

除了AI智能内容审核领域,在AI数据服务这条赛道上,景联文将提供智能驾驶,智能安防能多场景的定制化数据解决方案。

“AI鉴黄师”数据采集标注方案上线相关推荐

  1. 数据采集标注、模型开发、部署落地,百度大脑全栈 AI 能力详解

    AI 时代已来,软硬件解决方案企业在智能化转型过程中,面临着技术投入成本高.研发周期长等挑战.如何借助业内成熟技术.快速低成本地实现 AI 应用,已成为企业自身与技术平台特别关注的问题. 从核心技术能 ...

  2. 一文看懂AI数据采集标注未来三年的发展和趋势

    影响人工智能发展的三大要素分别是数据.算法.算力,限于篇幅,本篇内容将重点分析未来几年内人工智能所需要的数据趋势及探讨数据服务商发展方向. 作为AI数据采集标注的领先企业,云测数据分析认为人工智能在经 ...

  3. 景联文科技:为扫地机器人AI训练提供数据采集标注解决方案

    扫地机器人细分赛道近年来在家电行业表现尤为强劲,连续两年保持高速增长,奥维云网数据显示,2021年清洁电器全渠道零售额309亿元,同比增长28.9%. 除了行业Top2 科沃斯和石头科技的股价都攀升至 ...

  4. 数据采集标注、模型调参debug…这个神器统统都能搞定!

    AI 时代已来,软硬件解决方案企业在智能化转型过程中,面临着技术投入成本高.研发周期长等挑战.如何借助业内成熟技术.快速低成本地实现 AI 应用,已成为企业自身与技术平台特别关注的问题. 从核心技术能 ...

  5. 百度大脑EasyDL多人标注重磅上线啦

    今天给大家带来的是百度大脑EasyDL多人标注重磅上线,助力团队协作标注的相关信息,下面我们来看具体内容! 无论是企业的AI业务应用开发,还是高校师生团队的AI科研项目,想要获取高精度模型,除了需要选 ...

  6. 2021年人工智能数据采集标注行业四大趋势预测

    人工智能数据采集标注头部企业云测数据近日发布了<2021 年人工智能数据采集标注行业四大趋势预测>.云测数据认为,未来,高精度数据将成人工智能训练阶段追逐热点,具备主要需求方稳定的特点,存 ...

  7. 景联文科技:深度了解语音识别之发音词典及语音数据采集标注

    "随着语音助手在生活中的不断普及,其中配备的发音词典的准确性受到越来越多企业的重视.景联文科技采集标注大量高质量语音数据集,可全方便满足发音词典的采标需求,为语音采集标注提供数据支持.&qu ...

  8. 详解景联文科技数据采集标注平台

    数据标注是人工智能行业的基石.机器学习需要运用海量的有效数据来做支撑,而这些数据就需要我们的标注员对其进行分析和处理,想要得到精准的数据,就需要用到更加成熟的标注工具.数据标注平台应运而生. 景联文科 ...

  9. 响应“十三五”汽车工业发展规划意见,景联文提供自动驾驶全场景定制化数据采集标注服务

    "汽车智能化.网联化是未来发展的重要趋势,发展自动驾驶可以帮助用户解决出行的相关痛点,有效提升交通效率,对促进国家科技.经济.社会.生活.安全及综合国力均有着重大意义.景联文科技提供自动驾驶 ...

最新文章

  1. 人力资源计算机考试题库,人力资源考试题库.doc
  2. MYSQL的一些常用函数
  3. dns-prefetch—DNS预解析技术
  4. 微信小程序销毁某一注册函数_微信小程序云开发API 删除一条记录
  5. 关于Sql语句的心得体会
  6. 【kafka】produce response correlation id xxx on topic-partition retrying Error: NETWORK_EXCEPTION
  7. 银河证券CIO唐沛来:部署ITIL服务流程,让时空穿梭
  8. struts2+freemarker+sitemesh乱码,解决了
  9. android 静态注册wifi广播,Android静态注册广播receiver检测WIFI连接状况变化
  10. php 同时登录怎么办,php 实现同一个账号同时只能一个人登录
  11. iPhone的MobileTerminal使用经验
  12. mtk2503电流设定失败
  13. SPACEMACS 配置
  14. 【Transformer】李沐论文逐段精读学习笔记
  15. 一篇不错的关于VSS的入门介绍
  16. 松下php研究所,松下幸之助实践经营哲学10-2
  17. 手机安装Linus系统
  18. 闪光灯 flash 问题
  19. 淘宝天猫运营,淘金币快速引流使用方法,商家攻略
  20. 客户端禁用Cookie后session失效的问题

热门文章

  1. mysql 函数from_unixtime返回null
  2. Part-Ⅱ7.交流等效电路模型-7.2基本的交流建模方法
  3. 杭电OJ——第1000,1001题
  4. 全国各省-土地转让收入(1995-2019年)
  5. 要点初见:从旅行青蛙开始的OpenCV3模板匹配功能探索
  6. Android系统解除USER版本无法进入Recovery模式限制
  7. 厚脸皮,是一个人最了不起的才华
  8. webrtc代码走读五(JitterBuffer)
  9. 国际布线标准电缆色谱
  10. 未来的两马之争,马化腾如何才能打赢马云?