回译

自然语言处理过程经常面临缺乏数据,因此需要进行数据增强。其中,回译,即将中文翻译成外文,再翻译回中文的操作可以扩展数据集,是一种好办法。
这里直接提供工具包NLP工具包-回译数据增强,可以直接调用实现回译增强,而且返回的数据非常丰富。

⭐源码 => NLP工具包-回译数据增强

⭐戳这里 => NLP数据增强在线版

  1. 提供了多个大厂的公开免费翻译接口:包括百度、腾讯、谷歌、有道、讯飞 ,数据结果非常丰富;
  2. 你可以自己到各个大厂的 api 官方页面申请appid 和 密钥,拿到属于自己的翻译资源;
  3. 如果你可以获取到大厂的 多个 appid 和密钥,那么直接传参数进去吧,不必担心返回错误;
  4. 调用非常方便,你可以自行添加自定义的翻译接口,放进去做调用;
  5. 对各 API 的语言种类支持问题,均实现了世界主要语种的接口;
  6. 在运行速度上做了优化,只要网速好,3秒钟可以为一条文本扩展20条新数据(腾讯除外,腾讯api太慢了);

样例

这里有丰富的工具接口说明:回译数据增强

>>> import jionlp as jio
>>> xunfei_api = jio.XunfeiApi([{"appid": "5f5846b1","api_key": "52465bb3de9a258379e6909c4b1f2b4b","secret": "b21fdc62a7ed0e287f31cdc4bf4ab9a3"}])
>>> google_api = jio.GoogleApi()
>>> baidu_api = jio.BaiduApi([{'appid': '20200618000498778','secretKey': 'raHalLakgYitNuzGOoB2'},  # 错误的密钥{'appid': '20200618000498778','secretKey': 'raHalLakgYitNuzGOoBZ'}], gap_time=0.5)>>> apis = [baidu_api, google_api, xunfei_api]  # 可根据需要进行扩展>>> back_trans = jio.BackTranslation(mt_apis=apis)
>>> text = '饿了么凌晨发文将推出新功能,用户可选择是否愿意多等外卖员 5 分钟,你愿意多等这 5 分钟吗?'
>>> result = back_trans(text)
>>> print(result)# ['饿了么将在凌晨推出一项新功能。用户可以选择是否愿意额外等待外卖人员5分钟。您想多等5分钟吗?',
#  '《饿了么》将在凌晨推出一档新节目。用户可以选择是否愿意等待餐饮人员多花5分钟。您愿意再等五分钟吗?',
#  'Ele.me将在早晨的最初几个小时启动一个新的功能。用户可以选择是否准备好再等5分钟。你不想再等五分钟吗?',
#  'Eleme将在清晨推出新的功能。用户可以选择是否愿意再等5分钟工作人员。你想再等五分钟吗?']

NLP自然语言处理的文本数据增强——回译(内含python工具包)相关推荐

  1. Pytorch 文本数据分析方法(标签数量分布、句子长度分布、词频统计、关键词词云)、文本特征处理(n-gram特征、文本长度规范)、文本数据增强(回译数据增强法)

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 文本数据分析 学习目标: 了解文本数据分析的作用. 掌握常用的 ...

  2. NLP任务样本数据不均衡问题解决方案的总结和数据增强回译的实战展示

    目录 一.数据层面 1.欠采样(under-sampling) 2.过采样 二.算法层面 1.权重设置 2.新的损失函数--Focal Loss 三.评价方式 四.数据增强实战--回译(back tr ...

  3. 【NLP】文本数据分析文本特征处理文本数据增强

    一.文本数据分析 文本数据分析的作用: 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择. 常用的几种文本数据分析方法: 标签数量分 ...

  4. 文本数据增强之回译数据增强

    文章目录 题目 回译数据增强法 回译数据增强优势 回译数据增强存在的问题 前言 单句翻译代码 运行结果1 数组翻译法代码 运行结果2 回译 回译结果 题目 ''' Description: 文本数据增 ...

  5. 2.文本预处理(分词,命名实体识别和词性标注,one-hot,word2vec,word embedding,文本数据分析,文本特征处理,文本数据增强)

    文章目录 1.1 认识文本预处理 文本预处理及其作用 文本预处理中包含的主要环节 文本处理的基本方法 文本张量表示方法 文本语料的数据分析 文本特征处理 数据增强方法 重要说明 1.2 文本处理的基本 ...

  6. nlp文本数据增强_如何使用Texthero为您的NLP项目准备基于文本的数据集

    nlp文本数据增强 Natural Language Processing (NLP) is one of the most important fields of study and researc ...

  7. 文本数据增强一(概述、中文、同义句生成、enhance、augment、text、nlp)

    文本数据增强(扩充增加.中文.同义句生成.enhance.augment.text.nlp) AugmentText 概述 - 相较于图像数据增强,文本数据增强,现在还是有很多问题的: - 往更严格的 ...

  8. 文本数据增强三(回译,不同语种间的翻译)

    一.中文文本数据增强 (中文文本.同义句生成.扩充,增加,enhance.augment.text.nlp.样本不均衡.语料不够.数据不足.扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱( ...

  9. 人机交互系统(3.1)——NLP文本数据增强方法

    一.数据增强的背景和应用场景 随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升.而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性. 从广义上来 ...

最新文章

  1. 「翻译」SAP零售预测和补货–简要概述
  2. c语言编程高价是啥,有哪位高手可以帮我做几道c语言编程,有钱的呀,价格可以商量...
  3. opencv_imread出错(release/debug、X86/X64)
  4. PHP原生类反序列化
  5. System.Text.Json 中的 JsonExtensionData
  6. 【专升本计算机】最新甘肃省专升本考试C语言部分复习题带答案
  7. 深入Atlas系列:综合示例(1) - 调用服务器端方法时直接获得客户端具体类型...
  8. 学习l1图做图像分析
  9. Android4.4 及以下TextView,Button等控件使用矢量图报错
  10. QDir中mkdir和mkpath的区别
  11. 学计算机要做笔记吗,两个心理学实验告诉你,记笔记有多重要
  12. 毕设开题报告重要内容
  13. mac日历显示国家节假日及补班日期
  14. 十年Android程序员图解:用图帮你了解https的原理
  15. 恶意访问、黑产猖獗,如何做好业务安全“守门人”?丨创新场景50
  16. 基于零日漏洞的自动驾驶预期功能安全风险评估方法
  17. R语言 K-M生存分析,ggplot2制作好看的生存曲线
  18. Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh –A Python package)
  19. 迷室3第三章难点问题解读
  20. 一次代码评审,差点过不了试用期!

热门文章

  1. 英文文献的一些有意思的写法
  2. 绝地求生服务器排名网站,绝地求生大逃杀采用超性能服务器 支持所有宽带无延迟...
  3. intval0.57100 php_PHP代码审计归纳-Ali0th
  4. JavaSE加强案例总结、电影院系统
  5. 微信小程序二维码弹窗
  6. 微信小程序怎么改变默认的打开页面?
  7. 透过Q1财报,看米读成为趣头条核心增长曲线的价值逻辑
  8. 数据结构视频教程 -《数据结构深度实战专题班 C语言版(国嵌 唐老师主讲)(非常犀利)》
  9. 为什么看好酒馆行业所在的夜间经济?
  10. word章节、图、表自动编号