本文主要是对李宏毅教授的《Deep Learning for Human Language Processing (2020,Spring)》这门课程笔记。

  • 所有课程资料可以在以下链接中找到:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html。

  语言可以分为自然语言处理(NLP)和机器语言。自然语言就是人类日常交流中的语言,像中文、英文这样。而机器语言是人类发明的,像JavaPython这种计算机语言。而人类的语言交流又可以分为书写的语言和说的语言,从而有了机器学习中的两大分支,文本处理、语音处理。其二者又具有极大的相关性,导致很多处理方法都可以相互借鉴。

  处理这种结构化的数据比处理一般的机器学习满足独立同分布的数据要困难地多。其数据量也比较大。1s的语音信号采样,可以得到16k个采样点,每个采样点有256种可能的取值。并且这些信号之间的上下文关系又极具关联性,因此处理起来需要考虑诸多因素。并且语音信号无重复性,文本内容形式又多种多样。这是由每个人独一无二的个性化所决定的。

  因此人类语言处理是人工智能的圣杯,需要一定的智慧。之后的课程大纲大致可以分为以下几个部分:

  • 输入语音,输出文字

  这种情况下的主要应用是语音辨识Automatic Speech Recognition (ASR)。传统的方法会做很多特征工程,做很多model然后合成,如下图所示:

  而Google的基于全神经网络的语音辨识系统已经用在移动设备上了:

  具体细节可以参考:https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

  • 输入文字,输出语音

  这种情况下的主要应用是语音合成,像谷歌小姐这样类似的应用。但是并非说这里面的所有问题都被解决掉了,就像有时候语音对某些词的单个读音不准确,但是对一个句子中某个词的读音会很准确一样。我们也不知道为什么,因为神经网络像一个黑盒,我们并不知道里面具体做了什么。

  • 输入语音,输出语音

  这种情况下的主要应用是语音分离、去噪等等。或者语音中的风格转换(Voice Conversion)。

  当然还有一些问答系统,聊天机器人也都属于这一类。

  • 输入语音,输出语音所属类别

  这种主要是语者辨认(Speaker Recognition),辨认是谁说的。或者检测这个句子里面有没有某个关键字(Keyword Spotting),最常用的就是语音唤醒功能。

  • 输入文字,输出文字

  与这相关的工作主要有以下四种:

  • 输入文字,输出文字所属类别

  当然上述所说的方法你可以说用一个Sequence to Sequence的网络硬Train一下得到,但是目前已有很多先进的算法,有很多`trick,是很有必要学一下。不管是做强化学习还是人类语言处理,还是机器学习、深度学习,或者说数据挖掘,其算法背后的本质思想都是相同的,因此虽然我是做强化学习和智能决策为主的,但是我还是要好好学一下,学算法背后的思维才是我们所需要的,需要具备洞察算法背后本质思想的能力,共勉!·

  最后分享这个必读的预训练语言模型,项目:

  • 项目链接:https://github.com/thunlp/PLMpapers

参考

【1】李宏毅-基于深度学习的人类自然语言处理

深度学习系列(一)【人类语言处理--引言】相关推荐

  1. 深度学习系列:深度学习在腾讯的平台化和应用实践

    深度学习系列:深度学习在腾讯的平台化和应用实践(一) 莫扎特 2015-01-04 6:05:13 大数据技术 评论(0) 深度学习是近年机器学习领域的重大突破,有着广泛的应用前景.随着Google公 ...

  2. 【深度学习系列】——神经网络的可视化解释

    这是深度学习系列的第三篇文章,欢迎关注原创公众号 [计算机视觉联盟],第一时间阅读我的原创!回复 [西瓜书手推笔记] 还可获取我的机器学习纯手推笔记! 深度学习系列 [深度学习系列]--深度学习简介 ...

  3. python系列文章(基础,应用,后端,运维,自动化测试,爬虫,数据分析,可视化,机器学习,深度学习系列内容)

    python基础教程 python基础系列教程--Python的安装与测试:python解释器.PyDev编辑器.pycharm编译器 python基础系列教程--Python库的安装与卸载 pyth ...

  4. R语言︱H2o深度学习的一些R语言实践——H2o包

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例 笔者寄语:受启发 ...

  5. 辣鸡准备稍微碰一下深度学习系列(1/21)---上

    Hello Tensorflow(2.3.0)集ctrlCV之大成 -- MNIST 手写数字检测上 前BB MNIST数据集 一.是啥玩意? 二.怎么得到? 第一种:找大腿(keras) 第二种:伸 ...

  6. 机器学习与深度学习系列连载(NTU-Machine Learning, cs229, cs231n, cs224n, cs294):欢迎进入机器学习的世界

    欢迎进入机器学习的世界 本教程是根据台湾大学李弘毅老师的课程机器学习课程,斯坦福大学CS229.CS231N.CS224N.CS20i.伦敦大学学院 ([UCL-Course])(http://www ...

  7. 腾讯深度学习系列——深度学习及并行化实现概述

    深度学习及并行化实现概述 摘要: 深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别.图像识别和检索.自然语言理解等.深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具备强大的特征表 ...

  8. 【深度学习系列】——深度学习简介

    这是深度学习系列的第一篇文章,欢迎关注原创公众号 [计算机视觉联盟],第一时间阅读我的原创!回复 [西瓜书手推笔记] 还可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址 ...

  9. 【深度学习系列】卷积神经网络CNN原理详解(一)——基本原理(1)

    上篇文章我们给出了用paddlepaddle来做手写数字识别的示例,并对网络结构进行到了调整,提高了识别的精度.有的同学表示不是很理解原理,为什么传统的机器学习算法,简单的神经网络(如多层感知机)都可 ...

  10. 点云深度学习系列博客(二): 点云配准网络PCRNet

    目录 一. 简介 二. 基础结构 三. 项目代码 四. 实验结果 总结 Reference 今天的点云深度学习系列博客为大家介绍一个用于点云配准的深度网络:PCRNet [1].凡是对点云相关应用有些 ...

最新文章

  1. 挨踢项目求生法则-团队建设篇
  2. Exchange Server 2013 DAG高可用部署(四)-服务器配置(上)
  3. C++面试八股文快问快答の基础篇
  4. pytorch中resnet_ResNet代码详解
  5. 解决App启动时白屏的问题
  6. git reset后本地拉取_Git 代码防丢指南
  7. 想了解表格问答,我们先看看TA的前世
  8. fedora 20 报错: Loaded plugins: langpacks, refresh-packagekit Error: Cannot retrieve metalink for...
  9. 输入网址到出现页面的过程
  10. t-sql中引号的使用规则 转
  11. 闽院食堂管理系统分析
  12. crt计算机图形系统是什么东西,计算机图形系统功能.PPT
  13. ipqc的工作流程图_IPQC的工作流程及检验流程
  14. Java 苹果支付applepay服务端验证
  15. 偏振融合伪彩色图像(原理)
  16. vue使用Mars3D实现3d卫星轨道和3d地球图
  17. volatile(防止编译器对代码进行优化,常用于多线程环境中)
  18. 苹果:封闭为王、小众立场和技术嗅觉
  19. ERP与MES的区别与联系
  20. 只在此山中,云深不知处

热门文章

  1. 【管理心得之二十一】管得少就是管得好
  2. .net学习笔记之协变和抗变(原创)
  3. 使用ECMAScript 5严格模式提升开发效率
  4. FormBorderStyle 枚举
  5. Ilist 和list的区别归纳总结
  6. ELK详解(二十)——Elasticsearch索引管理
  7. LNMP建站分离部署
  8. 19-random猜数
  9. MySql添加外键报错:Cannot add foreign key constraint
  10. python 进行后端分页详细代码