前言

垂直领域内的自然语言处理任务往往面临着标注数据缺乏的问题,而近年来快速发展的半监督学习技术为此类问题提供了有希望的解决方案。文本以 Google 在 2019 年提出的 UDA 框架为研究主体,详细探索该技术在熵简科技真实业务场景中的实践效果。

本文主要有三方面的贡献:

  • 以金融文本分类为案例,探索了 UDA 在真实场景中的效果和不足;

  • 探索了 UDA 在轻量级模型上的效果;

  • 增加了原始 UDA 论文中未披露或未完成的研究,如领域外数据的影响,错误标记数据的影响。

01背景

当前的半监督技术似乎已经具备了与监督学习相比拟的优势。那么在真实场景中,半监督技术是否依然可以如实验室中的表现,可以在真实问题上发挥出独特的优势,降低我们对于标签数据的需求。

本文基于熵简NLP团队在真实业务场景上的实践经验,从垂直领域对于半监督技术的需求出发,详细介绍半监督学习中最新的代表技术之一UDA 算法的特性,以及在金融文本分类任务上的落地实践。

02金融领域的问题为什么需要半监督技术

金融领域内的自然语言处理问题属于典型的垂直领域问题,在面对特定任务场景时,常常面临的一个重要挑战就是少样本。这主要体现在两个方面:

  • 可收集到数据总量少,数据收集的时间成本很高,尤其在从0到1的立项初期。曾经在某个项目上,我们用了三周时间才搜集到1000多条有效样本。

  • 数据的人工标注成本很高。由于自然语言处理任务大部分属于认知层面的任务,因而数据标注的难度和不确定性显著高于感知层面

深度学习核心技术精讲100篇(四十九)-半监督学习在金融文本分类上的探索和实践相关推荐

  1. 深度学习核心技术精讲100篇(十九)--GBDT(梯度提升树) 和 Resnet (残差网络)的原理

    残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确:在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强.这 ...

  2. 深度学习核心技术精讲100篇(十四)-一文带你看懂GPflow的前世今生

    什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现. 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导 ...

  3. 深度学习核心技术精讲100篇(十二)-DCGAN(对抗生成网络)算法应用及代码实现

    前言 一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法.原来背后有一个极为有意思的算法思想--对抗生成. 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN ...

  4. 深度学习核心技术精讲100篇(十)-机器学习模型融合之Kaggle如何通过Stacking提升模型性能

    前言 之前的文章中谈到了机器学习项目中,要想使得使得机器学习模型进一步提升,我们必须使用到模型融合的技巧,今天我们就来谈谈模型融合中比较常见的一种方法--stacking.翻译成中文叫做模型堆叠,接下 ...

  5. 深度学习核心技术精讲100篇(十六)-搜索引擎Indri系列之如何建立索引 (Indexing)检索评价 (Evaluation)

    前言 在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file.这里的index_parameter_file是xml格式的参数文件 ...

  6. 深度学习核心技术精讲100篇(十五)-搜索引擎Indri系列之安装及使用

    前言 Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发. 安装 下 ...

  7. 深度学习核心技术精讲100篇(十八)-巨量数据下美团是如何实现数据治理的?

    背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...

  8. 深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用

    前言 随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼"手快有,手慢无".不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为 ...

  9. 深度学习核心技术精讲100篇(二十)-如何通过树模型实现梯度提升树(GBDT)+LR,随机森林(RandomForest) +LR

    前言 在讲如何通过树模型做特征工程之前,首先让我们回顾一下一个机器学习(除去深度学习项目部分)项目的大致流程: 从业务场景中抽象出问题--分类问题,回归问题,还是聚类问题等, 接下来是数据获取,数据清 ...

最新文章

  1. 阿里安全新研究:给图片打“马赛克”就能骗过 AI 视觉系统
  2. 车联网系统会不会只是智能手机系统的翻版?
  3. vue源码解析pdf_Vue源码全面解析八 callHook函数(触发生命周期函数)
  4. 使用NMAKE管理工程
  5. 160个Crackme023
  6. valgrind 的一个小缺陷
  7. Java后台获取前端传递的日期解析不了
  8. boost::serial_executor相关的测试程序
  9. json.decoder.JSONDecodeError: Expecting value: line 28 column 5 (char 731)
  10. Java之文件流操作的文件读写
  11. pixel 解锁_如何在Google Pixel 4和Pixel 4 XL上禁用面部解锁
  12. 【干货】分享总结:MySQL数据一致性
  13. (王道408考研操作系统)第二章进程管理-第三节1:进程同步与互斥的基本概念
  14. English Note_1_传统学习英语的误区
  15. 继承体系下的对象构造
  16. 魔兽世界怀旧服最新服务器开发时间,魔兽世界怀旧服明日开放,开服第一天“大部队”能升到多少级?...
  17. 3D Touch 之死
  18. P1757 通天之分组背包(动态规划 分组背包)
  19. 2022-2028全球与中国质地食品成分市场现状及未来发展趋势
  20. ITRON的内存管理,中断处理,时钟管理

热门文章

  1. Keepalived的相关应用,使用keepalived实现nginx和lvs的高可用负载均衡器
  2. sts从mysql数据库中反向生成实体类
  3. jquery 绑定动态元素
  4. POJ 1703 Find them, Catch them
  5. 无废话ExtJs 入门教程二十三[员工管理实例:Demo]
  6. Exchange 2007 中特殊应用解析
  7. 802.11N blockACK
  8. wsl安装配置vscode(亲测有用)
  9. 小而美的个人博客——前端——about
  10. golang python性能_Golang构建Python高性能模块