月石一 发自 凹非寺
量子位 报道 | 公众号 QbitAI

只要稍微动点手脚,就会给AI模型的鲁棒性带来挑战。

在AI眼里,下面这两张图片可能毫无关联。

现在,Facebook AI开源了用于数据增强的新Python库——AugLy

它支持音频、图像、视频和文本4模态,提供了超过100种数据增强功能,可以对输入内容进行多种处理。

比如,改变文字的大小写、字体、编码方式,给文本添加标点、调整字母位置、模拟错别字。

以及裁剪、旋转图片,给图片加文字、增加饱和度、增加亮度、改变清晰度等等……

这一项目已经获得1.8k颗星,并且登上了GitHub热榜。

让AI识别「截屏转发」

AugLy的目的是涵盖现实网络中具体的数据增强,用来创建样本,从而训练和测试模型。

根据Facebook和Instagram等平台上的生活图像和视频,AugLy在统一的库和API下转换项目的所有数据,提供了超过100种数据增强方式。

其中包括4个子库,分别对应音频、图像、视频和文本4种模态。

这些子库包括基于函数和类的变换、组合,并且可以选择所应用的元数据及其强度

图片处理为例,AugLy可以对图片进行裁剪、旋转、添加噪声、模糊处理、灰度处理等。

就像这样:

或者图片或视频上叠加文字和emojis:

除了包含许多通用的增强功能,AugLy更大的特点在于——提供“互联网用户”类型的数据增强方式。

比如,把图片转换成屏幕截图的样式,更加符合生活中常见的样子。

使用AugLy数据增强训练AI模型,这些内容相同而形式不同的信息,能帮助模型提高鲁棒性。

复制检测言论检测版权侵权等工作中,训练后AI可以对用户上传的内容,进行更精确的识别。

此外,AugLy已经被用于Deepfake检测挑战赛,用来评估模型的鲁棒性。

网友热议

这个新的Python库也受到了网友们的关注,在Reddit上获得了350+赞。

有网友提出疑问:文本模块只支持英语吗?

一位热心网友表示:

看起来文本模块在很大程度上是对nlpaug的一种包装,因此AugLy支持其他语言,只需修改几个参数。

也有网友提出,为什么不直接把它加到pytorch里?

对此,有人回复道:

这样在安装的时候会很慢,有需要的的人单独安装就可以了,没必要让pytorch那么臃肿。

AugLy要求Python 3.6以上版本,通过pip安装,但是在虚拟环境和系统环境中,还需要用conda和sudo apt-get命令单独安装python-magic。

比较遗憾的是,AugLy目前不支持输入批量图像,不过开发人员表示,以后将会完善这一功能。

参考链接:
[1]https://github.com/facebookresearch/AugLy
[2]https://colab.research.google.com/github/facebookresearch/AugLy/blob/main/examples/AugLy_audio.ipynb
[3]https://ai.facebook.com/blog/augly-a-new-data-augmentation-library-to-help-build-more-robust-ai-models/
[4]https://twitter.com/facebookai/status/1405558122924498944
[5]https://www.reddit.com/r/MachineLearning/comments/o3z63e/n_facebook_ai_open_sources_augly_a_new_python/
[6]https://www.reddit.com/r/MachineLearning/comments/o2gpjk/n_augly_a_new_multimodal_data_augmentation_lib/
[7]https://www.marktechpost.com/2021/06/19/facebook-ai-open-sources-augly-a-new-python-library-for-data-augmentation-to-develop-robust-machine-learning-models/

让AI精准识别盗版,脸书开源数据增强库:支持图文音视频,提供100多种增强方式...相关推荐

  1. 【githubshare】免费开源的视频编辑器,兼容 Windows、macOS、Linux 等主流操作系统。支持最新音视频格式与 4K 分辨率,可实现视频特效

    GitHub 上一款免费开源的视频编辑器:Shotcut,兼容 Windows.macOS.Linux 等主流操作系统. 支持最新音视频格式与 4K 分辨率,可实现视频特效添加.内容剪切.时间轴校对. ...

  2. 谷歌开源张量网络库TensorNetwork,GPU处理提升100倍!

    编译 |  琥珀 出品 | AI科技大本营(ID:rgznai100) 世界上许多最严峻的科学挑战,如开发高温超导体和理解时空的本质,都涉及处理量子系统的复杂性.然而,这些系统中量子态的数量程指数级增 ...

  3. 人脸检测颜值软件_百度AI人脸识别颜值-百度AI人脸识别测颜值源码下载-西西软件下载...

    百度AI人脸识别测颜值由百度AI官方推出,目前已将人脸识别氛围V2和V3两个接口,使用前需要参考相应的文档权限来选择接口类型.本次为大家带来百度AI人脸识别测颜值平台源码资源下载,相关的测量源码数据都 ...

  4. 百度AI人脸检测测颜值php,百度AI人脸识别测颜值源码app

    百度AI人脸识别测颜值源码app是由百度AI官方提供的,将人脸识别分为了两个接口,v2与vv3.需要根据文档权限来选择接口类型,这款软件非常方便用户学习和体验.想要学习相关信息的朋友可以来看看哦. 百 ...

  5. 戴眼镜检测和识别2:Pytorch实现戴眼镜检测和识别(含戴眼镜数据集和训练代码)

    Pytorch实现戴眼镜检测和识别(含戴眼镜数据集和训练代码) 目录 Pytorch实现戴眼镜检测和识别(含戴眼镜数据集和训练代码) 1.戴眼镜检测和识别方法 2.戴眼镜数据集 (1)戴眼镜数据集说明 ...

  6. AI+音视频双引擎驱动,保司线上服务能力全面升级 | 爱分析报告

    报告编委 张扬 爱分析联合创始人&首席分析师 孙文瑞 爱分析高级分析师 廖耘加 爱分析分析师 外部专家(按姓氏拼音排序) 段磊 容联云音视频负责人 徐靖辰 声网数字化转型政企行业总监 特别鸣谢 ...

  7. anyRTC加持AI,打造下一代实时音视频引擎

    前言: 伴随着音视频技术高速发展,直播行业异军突起,在社交.娱乐.电商.教育.医疗等领域高歌猛进.当下,5G和AI时代已至,音视频技术已经上升到一个全新的高度,新场景.新应用.新标准也必将出现.any ...

  8. FFmpeg进阶: 音视频常用开源库

    文章目录 多媒体处理 FFmpeg Gstreamer libav 流媒体传输 WebRTC Live555 开源播放器 ijkplayer exoplayer vlc 编解码 av1 vp8.vp9 ...

  9. ffmpeg-0.8 开源编码解码库从linux下移植到windows vs2005

    最新 ffmpeg-0.8 开源编码解码库,从linux下移植到windows vs2005,全部开源. 需要 Intel C++ Compile 和 开源的SDL库支持,由于 Intel C++ C ...

最新文章

  1. SAP MM初阶创建服务采购订单时订购单位和物料组的缺省值
  2. node升级命令_Laravel Mix 4升级说明与“排坑儿”指南
  3. KeyMob:建立一个稳定的移动广告聚合平台!
  4. boost::regex模块在 cpp 文件中搜索类定义,使用全局回调函数的测试程序
  5. Nested `constexpr` function calls before definition in a constant-expression context
  6. Abp Vnext Pro 的 Vue 实现版本
  7. Boolan STL 第三周笔记
  8. Linux内核设计的艺术:图解Linux操作系统架构设计与实现原理
  9. 精通 WPF UI Virtualization
  10. UTF-8 和 Unicode 的区别
  11. flask框架_Flask框架的入门:Hello world
  12. 全文搜索引擎 Elasticsearch 安装
  13. Dialog详解(包括进度条、PopupWindow、自定义view、自定义样式的对话框)
  14. Mysql跨表更新 多表update sql语句总结
  15. 浅谈matlab中fftshift的作用
  16. 去除Edge打开外部应用时的提醒
  17. 前端JS计算文件MD5
  18. syn包发送(拒绝攻击,但是有问题)
  19. [bzoj4556][TJOIHEOI2016]字符串
  20. No service of type FactoryLoggingManagerInternal available in ProjectScopeServices.

热门文章

  1. 企业应用程序部署在iOS 7.1上不起作用
  2. jQuery复选框选中状态更改事件
  3. 如何按PHP中给定键的值对关联数组进行排序?
  4. 069:ORM查询条件详解-isnull和regex
  5. csu 1976: 搬运工小明
  6. Hadoop 2.0 Yarn代码:心跳驱动服务分析
  7. Qt Creator 插件开发(1):编译 Qt Creator
  8. Sandbox 文件存放规则
  9. 使用NDK开发SQLite3
  10. 该如何继续走下去。。