Kaggle数据增强攻略来了!不氪金实现50种语言互译
每天给你送来NLP技术干货!
来自:NLP情报局
你好,我是浪矢。
俗话说,巧妇难为无米之炊。作为一名NLP算法工程师,我对这句话实在是感同身受。在平时的工作或比赛中,数据量匮乏是极其常见的问题,有时候甚至压根就没数据!
面对这些情况,首先想到的方法可能是通过搜索引擎查找开源数据集。然鹅无论是工作还是比赛中,我们面对的基本上是细分领域的场景,公开数据很难满足需求。
而且不同公司的内部需求场景天差地别:比如A公司的需求是对用户的个人简介做人物画像以精准推送相关新闻,B公司的需求可能是根据用户评论做恶意评价判定。
这些场景下,公开的同类型数据可能帮助很有限,倒是可以考虑做个迁移学习。同时中文领域公开数据集不足,想迁移估计都挺困难。
假如我们有少量数据,或正好能找到对应的英文或者其他外语语料,如何快速获得大批数据呢?
最简单的一种方法,翻译!
那如果没有翻译的基础,不能构建相应的翻译模型咋办?
用百度或者谷歌等现成的翻译API接口呀!如果数据量很大,又不想氪金怎么办?
额...用免费的谷歌翻译接口吧!这类接口一般会有访问频率限制,同时长时间访问会被系统限制
Kaggle数据增强攻略来了!不氪金实现50种语言互译相关推荐
- MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流...
导读:近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上实现了任意互译.其中的亮点在于:研究者让大多数低资源语言训练数据量提升了多个数量级,相当于规模提升 ...
- Py之seaborn:数据可视化seaborn库(二)的组合图可视化之密度图/核密度图分布可视化、箱型图/散点图、小提琴图/散点图组合可视化的简介、使用方法之最强攻略(建议收藏)
Py之seaborn:数据可视化seaborn库(二)的组合图可视化之密度图/核密度图分布可视化.箱型图/散点图.小提琴图/散点图组合可视化的简介.使用方法之最强攻略(建议收藏) 目录 二.组合图可视 ...
- Database之SQLSever:SQLSever数据表管理(GUI法/SQL语句命令法两种方法实现建立表、修改表,以及增、删、改、查)之详细攻略
Database之SQLSever:SQLSever数据表管理(GUI法/SQL语句命令法两种方法实现建立表.修改表,以及增.删.改.查)之详细攻略 目录 一.两种方法建立表.修改表,插入多条数据记录 ...
- Py之seaborn:数据可视化seaborn库(三)的矩阵图可视化之jointplot/JointGrid/pairplot/PairGrid/FacetGrid密度图等的函数源代码详解之最强攻略
Py之seaborn:数据可视化seaborn库(三)的矩阵图可视化之jointplot/JointGrid/pairplot/PairGrid/FacetGrid折线图/柱状图+散点图/矩形密度图的 ...
- ML:从0到1 机器学习算法思路实现全部过程最强攻略
ML:从0到1 机器学习算法思路实现全部过程最强攻略 目录 思维导图 设计思路 思维导图 设计思路 相关文章 ML之FE:结合Kaggle比赛的某一案例细究Feature Engineering思路框 ...
- 最强攻略迎战双十一大促
本文讲的是最强攻略迎战双十一大促,双十一大战已经提前进入"倒计时",市场的热情已经按捺不住,不仅是各大电商巨头纷纷推出多种促销"吸睛"手段,今年传统的各大零售商 ...
- 动手深度学习13——计算机视觉:数据增广、图片分类
文章目录 一.数据增广 1.1 为何进行数据增广? 1.2 常见图片增广方式 1.2.1 翻转 1.2.2 切割(裁剪) 1.2.3 改变颜色 1.2.4 综合使用 1.3 使用图像增广进行训练 1. ...
- 小牛情报APP最强攻略
下面博主就为您写一波小牛情报最强攻略. 首先,我们来介绍一下小牛情报,是国内专业的独立第三方区块链数据服务平台,一直致力于数据的深耕与数据价值的挖掘,从数据的采集.处理到数据的分析,再到数据的应用于咨 ...
- 【工大SCIR笔记】自然语言处理领域的数据增广方法
点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵 来自:哈工大SCIR 1.摘要 本文介绍自然语言处理领域的数据增广方法.数据增广(Data Augmentation,也有人将Data Aug ...
- 论文理解【IL - 数据增广】 —— Adversarial Imitation Learning with Trajectorial Augmentation and Correction
标题:Adversarial Imitation Learning with Trajectorial Augmentation and Correction 发表:ICRA 2021 文章链接:Ad ...
最新文章
- TCP通信速率与延时关系
- Hdu_2063 过山车 -最大匹配(邻接表版)
- 【mathematical statistics】5 distributional testing
- elk+redis分布式分析nginx日志
- ubuntu20.04安装mysql教程
- [JavaWeb-JavaScript]JavaScript运算符
- 【AI视野·今日NLP 自然语言处理论文速览 第一期】Fri, 4 Jun 2021
- 【linux】ubuntu下crontab无效解决方法
- Windows-Server下加强系统安全性系列之方案【六】
- 完整的金融类APP UI设计素材,深度学习临摹
- x内存满白苹果解决_苹果最佳MacBook和Mac:顶级苹果台式机和笔记本电脑
- [Linux] Linux命令之pstree - 以树状图显示进程间的关系
- C#中的值类型(value type)与引用类型(reference type)的区别
- 随便说说,我回来啦~
- Graphpad作图--百分比堆积柱形图
- scrapy重试机制_Scrapy项目之User timeout caused connection failure(异常记录)
- 字符识别引擎Calamari总结
- oracle数据库经典练习题及答案
- bash shell 数组元素遍历操作 foreach
- Python生成 gif 动图
热门文章
- 会话控制_2-5 编程练习
- Netty2:粘包/拆包问题与使用LineBasedFrameDecoder的解决方案
- Webpack 基础使用
- ABP框架详解(一)ABPBootstrapper
- hdu 3183 A Magic Lamp (rmq)
- poj 3714 Raid
- vue-cli2.0+webpack 项目搭建
- JavaScript如何获取css属性
- The constness of a method should makes sense from outside the object
- BITED数学建模七日谈之一:参加全国大学生数学建模比赛前你需要积累哪些