为NLP从业者/研究生/研究员专门定制的全网唯一高端NLP训练营
谷歌Lab近日发布了一个新的预训练模型"ALBERT"全面在SQuAD 2.0、GLUE、RACE等任务上超越了BERT、XLNet、RoBERTa再次刷新了排行榜!ALBERT是一种轻量版本的BERT,利用更好的参数来训练模型,但是效果却反而得到了很大提升!ALBERT的核心思想是采用了两种减少模型参数的方法,比BERT占用的内存空间小很多,同时极大提升了训练速度,更重要的是效果上也有很大的提升!
▲BERT 和 ALBERT 两者的参数量比较。
这次发布的模型由Google Lab的 Lan Zhenzhong博士来主导完成,而且Lan Zhenzhong博士正好也是贪心学院的顾问以及教研团队的成员。近期我们也会邀请Zhenzhong博士给大家做一次分享。
为了迎接NLP领域的各种变化,贪心学院的《自然语言处理》课程也在不断迭代更新,保证不错过任何2周之内出现的重要技术。自然语言处理无非是目前最大的风口,;从Word2Vec、ElMo、GPT、Bert到XLNet, 我们见证了这个领域的高速发展以及未来的前景。互联网中的大量的文本以及IOT时代赋予我们的全新交互带来了这个领域的爆发。
那这样的训练营到底是怎么样的呢? 下面来详细介绍一下《自然语言处理高阶训练营》的内容,也可以添加我们专业的AI职业规划师来咨询,我们的咨询师也是顶级AI公司出来的哦~
01课程大纲
第一阶段 算法与机器学习基础
【核心知识点】
. 时间复杂度,空间复杂度分析
. Master's Theorem,递归复杂度分析
. 动态规划以及Dynamic Time Warpping
. Earth Mover's Distance
. 维特比算法
. LR、决策树、随机森林、XGBoost
. 梯度下降法、随机梯度下降法、牛顿法
. Projected Gradient Descent
. L0, L1, L2, L-Infinity Norm
. Grid Search, Bayesian Optimization
. 凸函数、凸集、Duality、KKT条件
. Linear SVM、Dual of SVM
. Kernel Trick, Mercer's Theorem
. Kernelized Linear Regression、Kernelized KNN
. Linear/Quadratic Programming
. Integer/Semi-definite Programming
. NP-completeness/NP-hard/P/NP
. Constrained Relaxation、Approximate Algorithm
. Convergence Analysis of Iterative Algorithm
【部分案例讲解】
. 基于Sparse Quadratic Programming的股票投资组合优化策略编写
. 基于Earth Mover's Distance的短文本相似度计算
. 基于Projected Gradient Descent和非负矩阵分解的词向量学习
. 基于Linear Programming的机票定价系统
. 基于DTW的文本相似度分析
第二阶段 语言模型与序列标注
【核心知识点】
. 文本预处理技术(tf-idf,Stemming等)
. 文本领域的特征工程
. 倒排表、信息检索技术
. Noisy Channel Model
. N-gram模型,词向量介绍
. 常见的Smoothing Techniques
. Learning to Rank
. Latent Variable Model
. EM算法与Local Optimality
. Convergence of EM
. EM与K-Means, GMM
. Variational Autoencoder与Text Disentangling
.有向图与无向图模型
. Conditional Indepence、D-separation、Markov Blanket
. HMM模型以及参数估计
. Viterbi、Baum Welch
. Log-Linear Model与参数估计
. CRF模型与Linear-CRF
. CRF的Viterbi Decoding与参数估计
【部分案例讲解】
. 基于无监督学习方法的问答系统搭建
. 基于监督学习的Aspect-Based 情感分析系统搭建
. 基于CRF、LSTM-CRF、BERT-CRF 的命名实体识别应用
. 基于语言模型和Noisy Channel Model的拼写纠错
第三阶段 信息抽取、词向量与知识图谱
【核心知识点】
. 命名实体识别技术
. 信息抽取技术
. Snowball, KnowitAll, RunnerText
. Distant Supervision, 无监督学习方法
. 实体统一、实体消歧义、指代消解
. 知识图谱、实体与关系
. 词向量、Skip-Gram、Negative Sampling
. 矩阵分解、CBOW与Glove向量
. Contexualized Embedding与ELMo
. KL Divergence与Gaussian Embedding
. 非欧式空间与Pointcare Embedding
. 黎曼空间中的梯度下降法
. 知识图谱嵌入技术
. TransE, NTN 的详解
. Node2Vec详解
. Adversial Learning与KBGAN
【部分案例讲解】
. 利用非结构化数据和信息抽取技术构建知识图谱
. 任务导向型聊天机器人的搭建
. 包含Intent与Entity Extraction的NLU模块实现
. 基于SkipGram的推荐系统实现(参考Airbnb论文)
第四阶段 深度学习与NLP
【核心知识点】
. Pytorch与Tensorflow详解. 表示学习,分布式表示技术
. 文本领域中的Disentangling
. 深度神经网络与BP算法详解
. RNN与Vanishing/Exploding Gradient
. LSTM与GRU
. Seq2Seq与注意力机制
. Greedy Decoding与Beam Search
. BI-LSTM-CRF模型
. Neural Turing Machine
. Memory Network
. Self Attention,Transformer以及Transformer-XL.
. Bert的详解
. BERT-BiLSTM-CRF
. GPT,MASS, XLNet
. Low-resource learning
. 深度学习的可视化
. Laywer-wise Relevance Propagation
【部分案例讲解】
. 利用纯Python实现BP算法
. 基于Seq2Seq+注意力机制、基于Transformer的机器翻译系统
. 基于Transformer的闲聊型聊天机器人
. 基于BI-LSTM-CRF和BERT-BiLSTM-CRF在命名实体中的比较
. 利用Laywer-wise RP可视化端到端的机器翻译系统
第五阶段 贝叶斯模型与NLP
【核心知识点】
. 概率图模型与条件独立
. Markov Blanket
. Dirichlet分布、Multinomial分布
. Beta分布、Conjugate Prior回顾
. Detail Balance
. 主题模型详解
. MCMC与吉布斯采样
. 主题模型与Collapsed Gibbs Sampling
. Metropolis Hasting, Rejection Sampling
. Langevin Dyamics与SGLD
. 分布式SGLD与主题模型
. Dynamic Topic Model
. Supervised Topic Model
. KL Divergence与ELBO
. Variantional Inference, Stochastic VI
. 主题模型与变分法
. Nonparametric Models
. Dirichlet Process
. Chinese Restarant Process
. Bayesian Deep Neural Network
. VAE与Reparametrization trick
. Bayesian RNN/LSTM
. Bayesian Word2Vec
. MMSB
【部分案例讲解】
. 利用Collapsed Gibbs Sampler和SGLD对主题模型做Inference
. 基于Bayesian-LSTM的命名实体识别
. 利用主题模型做文本分类在
. LDA的基础上修改并搭建无监督情感分析模型
第六阶段 开放式项目 (Optional)
【项目介绍】
开放式项目又称为课程的capstone项目。作为课程中的很重要的一部分,可以选择work on一个具有挑战性的项目。通过此项目,可以深入去理解某一个特定领域,快速成为这个领域内的专家,并且让项目成果成为简历中的一个亮点。
【项目流程】
Step 1: 组队
Step 2:立项以及提交proposal
Step 3: Short Survey Paper
Step 4: 中期项目Review
Step 5: 最终项目PPT以及代码提交
Step 6: 最终presentation
Step 7: Technical Report/博客
【输出结果】
完整PPT、代码和Conference-Style Technical Report 最为项目的最后阶段,我们将组织学员的presentation分享大会。借此我们会邀请一些同行业的专家、从业者、企业招聘方、优质猎头资源等共同参与分享大会。
为AI从业者/研究生/研究员专门定制
全网唯一《NLP自然语言处理高阶训练营》
对课程有意向的同学
添加课程顾问小姐姐微信
报名、课程咨询
????????????
02部分项目作业
课程设计紧密围绕学术界最新进展以及工业界的需求,涵盖了所有核心知识点,并且结合了大量实战项目,培养学员的动手能力,解决问题能力。
问答系统
从零开始搭建一个完整的问答系统。给定一个语料库(问题和答案对),对于用户的输入需要返回最适合的答案。涉及到的模块:
1. 对于用户的输入需要做拼写纠错,这部分会用到语言模型
2. 之后对输入做文本的预处理,过滤等操作。
3. 把文本转换成向量形式,这里需要用到tf-idf, word2vec等相关的技术。
4. 针对于语料库,为了提升效率需要创建倒排表。
5. 基于相似度的计算来获得最优的答案。
情感分析系统
基于给定数据,来搭建一个完整的情感分析系统。项目涉及到的模块:
1. 数据的预处理
2. 特征工程,这部分是本项目的核心。
3. 监督学习模型的选择与调参。调参的过程需要尝试不同的优化策略。
知识图谱系统
利用非结构化数据来搭建知识图谱。项目涉及到的模块:
1. 从非结构化数据中抽取实体,以及词典库的构建
2. 关系的抽取(指定的关系)
3. 实体统一以及实体消歧。
4. 知识图谱的构建以及查询
对话系统中的NLU
基于给定的对话数据来构建NLU识别部分,并结果用于聊天机器人中。 项目涉及到的模块:
1. 文本特征的提取
2. 搭建CRF模型来识别关键词
3. 搭建LSTM-CRF模型来识别关键词。
机器翻译系统
基于给定数据,来搭建一个完整的情感分析系统。项目涉及到的模块:
1. 数据的预处理
2. 特征工程,这部分是本项目的核心。
3. 监督学习模型的选择与调参。调参的过程需要尝试不同的优化策略。
任务导向型聊天机器人
搭建一个完整的聊天机器人,用来服务搜索餐厅。项目涉及到的模块:
1. 文本预处理
2. 意图识别和关键信息抽取
3. 对于每一个意图设计对话管理状态机
4. 设计上下文处理的方法
5. 对话生成模块
6. 处理一些常见的boundary case。
03直播授课,现场推导演示
区别于劣质的PPT讲解,导师全程现场推导,让你在学习中有清晰的思路,深刻的理解算法模型背后推导的每个细节。更重要的是可以清晰地看到各种模型之间的关系!帮助你打通六脉!
▲源自:CRF与Log-Linear模型讲解
▲源自:CRF与Log-Linear模型讲解
▲源自:Convex Optimization 讲解
▲源自:Convergence Analysis 讲解
不管你在学习过程中遇到多少阻碍,你都可以通过以下4种方式解决:
1、直接在线问导师;
2、记录到共享文档中,每日固定时间的直播答疑;
3、学习社群中全职助教,随时提问答疑
4、共同的问题在Review Session里面做讲解
注:每次答疑,班主任都会进行记录,以便学员实时查阅。
04课程适合谁?
对机器学习算法有基础了解,具备编程能力;
对数据结构与算法比较熟悉;
想申请国外名校AI相关专业的硕士/博士;
已从事NLP领域工作,想要升职加薪;
想加入顶级AI公司;
05每周课程安排
采用直播的授课方式,一周4-5次的直播教学, 包括2次的main lectures, 1-2次的discussion session (讲解某一个实战、必备基础、案例或者技术上的延伸), 1次的paper reading session (每周会assign一篇必备论文,并且直播解读)。教学模式上也参考了美国顶级院校的教学体系。以下为其中一周的课程安排,供参考。
每周一次的Review Session, 老师提前一周给出几个备选主题,由学生进行投票选择最心仪的主题,每周三次。
06你的必备挑战
1.编写一些技术类文章
通过在知乎上发表相关技术文章进行自我成果检验,同时也是一种思想碰撞的方式,导师会对发表的每一篇文章写一个详细的评语。万一不小心成为一个大V了呢?虽然写文章的过程万分痛苦,学习群里半夜哀嚎遍野,但看一看抓着头发写出来的文章结果还是非常喜人的!看着自己收获的点赞数,大家都默默地感谢起导师们的无情!
这种满满的成就感,让大家一篇接一篇写了下去!
个个都立刻变身成了知乎大牛~
2.Project项目
除了文章,算法工程师的立命根本--项目代码,导师更是不会放过的。每次在Gitlab上布置的作业,导师们都会带领助教团队会予以详细的批改和反馈。并逼着你不断的优化!
07 训练营导师
看了这么多,是不是非常崇拜设计出如此地狱式学习计划的大牛,那就来正式认识一下这位训练营中人人听了都闻风丧胆,但又让人崇拜+喜爱+欲罢不能的训练营大魔头:
李文哲
NLP、知识图谱领域专家
美国南加州大学博士,曾任凡普金科(爱钱进)首席科学家,美国亚马逊/高盛高级工程师,AI量化投资公司首席科学家兼投资总监。在AAAI, KDD, AISTATS等顶会上发表过15篇以上论文,其中3篇获得Best Paper Award,累计数百次引用。
在被大魔头们折磨了多个日日夜夜后,大家不但没有放弃学习,而且很快乐地学习着。来听听大家的心声吧:
这两天群里更是捷报连连。我们前三期项目的已经有多名学员被一线AI企业录取,还有通过二面、三面等待着offer。相信未来几周我们将会受到更多的好消息!
随便截了几个学员反馈,看看他们有多爱这个机智又严苛的大魔头:
我确定了我们的魔鬼训练营没有误人子弟,我们的课程真的帮助到大家实质的技能提升或帮助大家拿到offer。
这次我们迎来了第六期NLP的招生,千万不要觉得这是一个对标其他线上课程的普通的训练营。由于内容的专业性以及深度,在过去吸引了大量的全球顶级名府的学员,这里不乏来自斯坦福、UCSD、USC、哥大、HKUST、爱丁堡等世界名府的学生;在这里,你不仅可以享受到通往顶尖人才的快乐、也可以结识志同道合的AI从业者以及未来的科学家。
08报名须知
1、本课程为收费教学。
2、本期仅招收50个名额。
3、品质保障!正式开课后7天内,无条件全额退款。
4、学习本课程需要具备一定的AI基础。
●●●
为AI从业者/研究生/研究员专门定制
全网唯一《NLP自然语言处理高阶训练营》
对课程有意向的同学
添加课程顾问小姐姐微信
报名、课程咨询
????????????
为NLP从业者/研究生/研究员专门定制的全网唯一高端NLP训练营相关推荐
- 为AI从业者/研究生/研究员专门定制的全网唯一高端AI训练营
加入AI行业拿到高薪仅仅是职业生涯的开始.现阶段AI人才结构在不断升级,这也意味着如果目前仍然停留在调用一些函数库,则在未来1-2年内很大概率上会失去核心竞争力的.几年前如果熟练使用TensorFlo ...
- ChatGPT 未来五年会对 NLP 从业者带来怎样的冲击?—分享七月在线nlp高级
ChatGPT 印证了模型大一统的可行性,这在未来五年会对 NLP 从业者带来怎样的冲击? ChatGPT这种Instruct based方法,能取得如此惊艳的效果,是出乎很多人意料的,当然,我个人认 ...
- 腾讯欲成育碧最大股东/ 米哈游招NLP内容生成研究员/ AI发现四千余物种濒临灭绝...今日更多新鲜事在此...
日报君 发自 凹非寺 量子位 | 公众号 QbitAI 朋友们,周五啦,忙碌的工作日终于要结束了- 今天科技圈都有哪些新鲜事儿呢? 一起来跟日报君看看吧. 今日大新闻 腾讯计划增持育碧,欲成育碧最大的 ...
- 【NLP】医学AI又一突破,微软开源生物医学NLP基准:BLURB
By 超神经 内容概要:微软团队发布生物医学领域 NLP 基准,命名为 BLURB,已在 arxiv.org 中发布相关论文,并将其开源. 关键词:生物医学 自然语言处理 基准 微软的研究团队近日在 ...
- 模型部署到移动端_TensorFlow Lite 自然语言处理模型的最新功能,助力设备端 NLP 部署...
设备端机器学习框架 TensorFlow Lite 为手机.微控制器和 Edge TPU 等边缘设备提供机器学习功能,已被广泛用于许多应用领域.其中,"自然语言处理" (Natur ...
- 斯坦福NLP名课带学详解 | CS224n 第15讲 - NLP文本生成任务(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第12讲 - NLP子词模型(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第10讲 - NLP中的问答系统(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第11讲 - NLP中的卷积神经网络(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
最新文章
- 上接游戏人生Silverlight(4) - 连连看[Silverlight 2.0(c#)]
- 如何做网络营销推广浅析网站SEO外链发布的技巧分享!
- iOS常用宏定义大全
- 他是绝世天才,却只开了半辈子的挂!死后惨遭封号200年,这就是和牛顿抬杠的下场.........
- codeforces-1176 (div3)
- 解决go build报错cannot find main module; see ‘go help modules‘
- 深信服vmp云桌面安装测试小结
- CAD导入MAXWELL
- 前端下载音频的两种处理方式
- 关于SRE方法论的一些笔记
- php redis 清除队列,PHP Redis Queue
- 让 Flutter 在鸿蒙系统上跑起来
- 错误解决:ThinkPHP 3.1 { Fast Simple OOP PHP Framework } -- [ WE CAN DO IT JUST THINK ]
- PDF Expert|全能宝藏PDF编辑器
- 1033 旧键盘打字 (20分)
- Linux面试必备基础知识(十一)——系统管理命令
- 简谈一下对自己的认识
- ResponseEntity
- LinkedIn领英账号达到一周添加好友邀请上限后怎么办?学会这四式三招,你也能解决LinkedIn领英账号添加好友的每周数量限制...
- 从工作量证明(POW)到高阶工作量证明(HPOW)
热门文章
- 【Codeforces】1065B Vasya and Isolated Vertices (无向图的)
- 【Python】有道翻译的爬虫实现(前篇)
- linux卸载欧朋浏览器,如何在Centos下安装opera浏览器
- GitHub 标星 20000+,国产 AI 开源从算法开始突破 | 专访商汤联合创始人林达华
- 倒计时 8 天 | 完整议程大揭秘!来 20 个 AI 论坛,与百名大咖携手玩转人工智能...
- 从0到1,Airbnb的深度学习实践经验总结
- 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019
- 漫画讲述人工智能简史
- 512 个 AI 职位、11 万美元年薪,盘点 2018 最佳人工智能公司
- Redis生产环境架构选型方案对比