哈工大教授车万翔「自然语言处理中的伪数据」
报告题目:自然语言处理中的伪数据
报告摘要:自然语言处理(Natural Language Processing,NLP)是用计算机来理解和生成自然语言的各种理论和方法。由于语言所具有的歧义性、组合性等现象,使得自然语言处理的性能始终不尽如人意,并成为制约人工智能取得更大突破和更广泛应用的瓶颈,也被誉为“人工智能皇冠上的明珠”。自然语言处理的本质问题是形式与意义的多对多映射关系,需要利用“知识”进行约束。除了显性的符号知识外,还可以将知识融入算法之中,或者通过数据获取隐性的知识。目前,数据的重要性越来越凸显。然而传统有标注数据需要大量的人力物力进行标注,不但代价高昂,而且规模有限。近年来,从无标注数据中构造自监督任务的预训练模型异军突起,大幅提高了自然语言处理系统的准确率。然而,语言模型等自监督任务与下游目标任务的差异较大,为了进一步提高迁移学习的效果,我们提出“伪数据”的概念,通过移植、采集、构造等方式,自动构造与下游目标任务更一致的大规模“标注”数据,从而进一步提升系统的准确率。本报告将系统地阐述伪数据的概念及其在自然语言处理中的应用案例,希望能够对相关的工作带来一定的启发。
主讲人:车万翔
主讲人简介:车万翔博士,哈尔滨工业大学计算学部长聘教授、博士生导师,人工智能研究院副院长,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员、曾任YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文100余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引近6,000余次(Google Scholar数据)。出版教材 4 部,译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测第1名。2020年获黑龙江省青年科技奖;2015、2016连续两年获Google Focused Research Award(谷歌专注研究奖);2016年获黑龙江省科技进步一等奖(第2完成人);2012年获黑龙江省技术发明奖二等奖(第2完成人);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(第2完成人)、首届汉王青年创新奖(个人)等多项奖励。2017年,所主讲的MOOC课程《高级语言程序设计(Python)》获国家精品在线开放课程。
视频观看地址:智源社区活动
哈工大教授车万翔「自然语言处理中的伪数据」相关推荐
- 哈工大教授车万翔:自然语言处理中的伪数据
导语:自然语言处理被誉为"人工智能皇冠上的明珠".对语言的理解需要广义的"知识",即狭义知识,算法和数据的约束.目前的预训练+微调的范式充分利用了数据类&quo ...
- 「新房+电商+大数据」如何塑造满意度达 99.8% 的万亿市场领路人?
新房领域毫无疑问是一个万亿市场,但当问到这个巨无霸领域的 TOP3,大众似乎没有答案,难道万亿级的新房市场,就真没有一个"现象级"的龙头? 目前没有,但即将会有.随着技术(如大数据 ...
- iOS 10 不提示「是否允许应用访问数据」,导致应用无法使用的解决方案
每日更新关注:http://weibo.com/hanjunqiang 新浪微博!iOS开发者交流QQ群: 446310206 这个坑最近弄得我很抓狂,不过现在基本弄清楚了.记录一下过程中我收集到的 ...
- 哈工大车万翔:ChatGPT时代,NLPer 的危与机
note ChatGPT的诞生,源于研究者「暴力美学」的手段. 如果大胆预测,ChatGPT能火几年,我猜可能是2到3年的时间,到2025年大概又要更新换代了. 工业界相较于学术界拥有巨大优势.这种「 ...
- 车万翔:ChatGPT时代,NLPer 的危与机
来自:智源社区 要点速览: ChatGPT的诞生,源于研究者「暴力美学」的手段. 如果大胆预测,ChatGPT能火几年,我猜可能是2到3年的时间,到2025年大概又要更新换代了. 工业界相较于学术界拥 ...
- 哈工大中文信息处理_【NLP】哈工大车万翔教授 自然语言处理NLPer的核心竞争力是什么?19页ppt...
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要4分钟 跟随小博主,每天进步一丢丢 整理:专知 导读 自然语言处理是当前人工智能研究的重要方向之一.那么从事NLP的人员如何能够不断升级,构建核 ...
- 哈工大车万翔:自然语言处理范式正在变迁
Datawhale干货 作者:车万翔,哈工大教授,编辑:李rumor 最近几天被OpenAI推出的ChatGPT[1]刷屏了,其影响已经不仅局限于自然语言处理(NLP)圈,就连投资圈也开始蠢蠢欲动了, ...
- 哈工大刘挺:自然语言处理中的可解释性问题!
"知其然,亦知其所以然"是现代计算机科学家针对神经网络可解释性问题追逐努力的方向和梦想.针对自然语言处理中的可解释性问题,哈尔滨工业大学刘挺教授在2022北京智源大会报告中做了详尽 ...
- 哈工大刘挺:自然语言处理中的可解释性问题
"知其然,亦知其所以然"是现代计算机科学家针对神经网络可解释性问题追逐努力的方向和梦想.针对自然语言处理中的可解释性问题,哈尔滨工业大学刘挺教授在近期的报告中做了详尽的解读.首先介 ...
- AI:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授《自然语言处理中的表示学习》
AI:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授<自然语言处理中的表示学习> 导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为 ...
最新文章
- coreseek最大检索数只有1000的问题!
- linux 无法挂载系统,解决无法挂载Linux文件系统的问题
- String直接赋值和使用new的区别
- php连接基础方法怎么查询数据库,php基础之连接mysql数据库和查询数据
- MATLAB之相关函数
- 物联网带着诚意扑面而来
- 休眠锁定模式–乐观锁定模式如何工作
- hadoop2 Ubuntu 下安装部署
- 扫地机器人的特点描写_扫地机器人的特点是什么
- 数据库编程--SqlServer示例
- python启动远端 exe_python打包exe开机自动启动的实例(windows)
- 本周个人进步要点20160821
- 华为9月3日或推出麒麟9000;TiDB 3.0.18 发布| 极客头条
- android设置字符串到剪贴板
- 数据库中的主键与外键的关系
- 支付宝-支付API(电脑网站支付)
- Widows Tips
- 怎么将flac转换成mp3
- 婴儿大脑MRI图谱集
- STM32F103C8T6以寄存器方式借助面包板搭建电路点亮LED流水灯详解