每天给你送来NLP技术干货!


来自:NLP情报局

你好,我是浪矢。

俗话说,巧妇难为无米之炊。作为一名NLP算法工程师,我对这句话实在是感同身受。在平时的工作或比赛中,数据量匮乏是极其常见的问题,有时候甚至压根就没数据!

面对这些情况,首先想到的方法可能是通过搜索引擎查找开源数据集。然鹅无论是工作还是比赛中,我们面对的基本上是细分领域的场景,公开数据很难满足需求。

而且不同公司的内部需求场景天差地别:比如A公司的需求是对用户的个人简介做人物画像以精准推送相关新闻,B公司的需求可能是根据用户评论做恶意评价判定。

这些场景下,公开的同类型数据可能帮助很有限,倒是可以考虑做个迁移学习。同时中文领域公开数据集不足,想迁移估计都挺困难。

假如我们有少量数据,或正好能找到对应的英文或者其他外语语料,如何快速获得大批数据呢?

最简单的一种方法,翻译!

那如果没有翻译的基础,不能构建相应的翻译模型咋办?

用百度或者谷歌等现成的翻译API接口呀!如果数据量很大,又不想氪金怎么办?

额...用免费的谷歌翻译接口吧!这类接口一般会有访问频率限制,同时长时间访问会被系统限制

Kaggle数据增强攻略来了!不氪金实现50种语言互译相关推荐

  1. MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流...

    导读:近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上实现了任意互译.其中的亮点在于:研究者让大多数低资源语言训练数据量提升了多个数量级,相当于规模提升 ...

  2. Py之seaborn:数据可视化seaborn库(二)的组合图可视化之密度图/核密度图分布可视化、箱型图/散点图、小提琴图/散点图组合可视化的简介、使用方法之最强攻略(建议收藏)

    Py之seaborn:数据可视化seaborn库(二)的组合图可视化之密度图/核密度图分布可视化.箱型图/散点图.小提琴图/散点图组合可视化的简介.使用方法之最强攻略(建议收藏) 目录 二.组合图可视 ...

  3. Database之SQLSever:SQLSever数据表管理(GUI法/SQL语句命令法两种方法实现建立表、修改表,以及增、删、改、查)之详细攻略

    Database之SQLSever:SQLSever数据表管理(GUI法/SQL语句命令法两种方法实现建立表.修改表,以及增.删.改.查)之详细攻略 目录 一.两种方法建立表.修改表,插入多条数据记录 ...

  4. Py之seaborn:数据可视化seaborn库(三)的矩阵图可视化之jointplot/JointGrid/pairplot/PairGrid/FacetGrid密度图等的函数源代码详解之最强攻略

    Py之seaborn:数据可视化seaborn库(三)的矩阵图可视化之jointplot/JointGrid/pairplot/PairGrid/FacetGrid折线图/柱状图+散点图/矩形密度图的 ...

  5. ML:从0到1 机器学习算法思路实现全部过程最强攻略

    ML:从0到1 机器学习算法思路实现全部过程最强攻略 目录 思维导图 设计思路 思维导图 设计思路 相关文章 ML之FE:结合Kaggle比赛的某一案例细究Feature Engineering思路框 ...

  6. 最强攻略迎战双十一大促

    本文讲的是最强攻略迎战双十一大促,双十一大战已经提前进入"倒计时",市场的热情已经按捺不住,不仅是各大电商巨头纷纷推出多种促销"吸睛"手段,今年传统的各大零售商 ...

  7. 动手深度学习13——计算机视觉:数据增广、图片分类

    文章目录 一.数据增广 1.1 为何进行数据增广? 1.2 常见图片增广方式 1.2.1 翻转 1.2.2 切割(裁剪) 1.2.3 改变颜色 1.2.4 综合使用 1.3 使用图像增广进行训练 1. ...

  8. 小牛情报APP最强攻略

    下面博主就为您写一波小牛情报最强攻略. 首先,我们来介绍一下小牛情报,是国内专业的独立第三方区块链数据服务平台,一直致力于数据的深耕与数据价值的挖掘,从数据的采集.处理到数据的分析,再到数据的应用于咨 ...

  9. 【工大SCIR笔记】自然语言处理领域的数据增广方法

    点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵 来自:哈工大SCIR 1.摘要 本文介绍自然语言处理领域的数据增广方法.数据增广(Data Augmentation,也有人将Data Aug ...

  10. 论文理解【IL - 数据增广】 —— Adversarial Imitation Learning with Trajectorial Augmentation and Correction

    标题:Adversarial Imitation Learning with Trajectorial Augmentation and Correction 发表:ICRA 2021 文章链接:Ad ...

最新文章

  1. TCP通信速率与延时关系
  2. Hdu_2063 过山车 -最大匹配(邻接表版)
  3. 【mathematical statistics】5 distributional testing
  4. elk+redis分布式分析nginx日志
  5. ubuntu20.04安装mysql教程
  6. [JavaWeb-JavaScript]JavaScript运算符
  7. 【AI视野·今日NLP 自然语言处理论文速览 第一期】Fri, 4 Jun 2021
  8. 【linux】ubuntu下crontab无效解决方法
  9. Windows-Server下加强系统安全性系列之方案【六】
  10. 完整的金融类APP UI设计素材,深度学习临摹
  11. x内存满白苹果解决_苹果最佳MacBook和Mac:顶级苹果台式机和笔记本电脑
  12. [Linux] Linux命令之pstree - 以树状图显示进程间的关系
  13. C#中的值类型(value type)与引用类型(reference type)的区别
  14. 随便说说,我回来啦~
  15. Graphpad作图--百分比堆积柱形图
  16. scrapy重试机制_Scrapy项目之User timeout caused connection failure(异常记录)
  17. 字符识别引擎Calamari总结
  18. oracle数据库经典练习题及答案
  19. bash shell 数组元素遍历操作 foreach
  20. Python生成 gif 动图

热门文章

  1. 会话控制_2-5 编程练习
  2. Netty2:粘包/拆包问题与使用LineBasedFrameDecoder的解决方案
  3. Webpack 基础使用
  4. ABP框架详解(一)ABPBootstrapper
  5. hdu 3183 A Magic Lamp (rmq)
  6. poj 3714 Raid
  7. vue-cli2.0+webpack 项目搭建
  8. JavaScript如何获取css属性
  9. The constness of a method should makes sense from outside the object
  10. BITED数学建模七日谈之一:参加全国大学生数学建模比赛前你需要积累哪些