拆解「千言数据集:文本相似度」竞赛第一背后的故事
欢迎关注【百度NLP】公众号,及时获取更多自然语言处理领域技术干货!
文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用。
目前学术界已经开源共享了一些公开中文文本相似度数据集,『千言』开源项目收集和整理了这些权威的数据集,如:LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据
,PAWS (Paraphrase Adversaries from Word Scrambling),包含 7 种语言释义对的数据集。
千言(luge.ai)是全面的面向自然语言理解和生成任务的中文开源数据集合,吸引了众多知名企业的算法工程师同台竞技。其中的文本相似度赛道尤为火爆,参赛队伍多达300余支,更是不乏OPPO、思必驰等AI领域的知名企业。其中,OPPO小布助手在千言文本相似度比赛中,也获得了第一名的好成绩。
为了帮助大家更好地使用千言、参与千言的竞赛交流,千言特邀小布助手闲聊组团队做客,通过本周四的直播,让我们一起跟着两位老师了解文本相似度的常用算法以及『千言数据集:文本相似度』的竞赛方案。
直播时间:
3.4日/19:30-20:30
分享嘉宾:
OPPO小布助手算法工程师 张超
OPPO小布助手算法工程师 邱月
分享大纲:
1 语义相似度任务——背景和难点分析
2 语义相似度算法
2.1 无监督学习
2.2 有监督学习
2.3 语义表征模型
2.4 语义交互模型
3 千言-语义相似度解决方案
3.1 赛题介绍
3.2 数据集分析
3.3 算法方案设计【数据清洗、数据增强、模型训练、5fold交叉验证、模型融合预测方案】
互动有奖
直播过程中,大家可以通过弹幕、评论等方式进行互动,老师会推选3个优质问题。
奖品
无线充电鼠标垫*2
精美净水壶*1
扫码获取直播地址
扫码跟第一面对面请教
千言数据集——文本相似度常规赛,持续打榜中:
https://aistudio.baidu.com/aistudio/competition/detail/45/?isFromLuge=1
拆解「千言数据集:文本相似度」竞赛第一背后的故事相关推荐
- 百度千言-中文文本相似度实战
文章目录 百度千言-中文文本相似度实战 任务1:报名比赛,下载比赛数据集并完成读取 任务2:对句子对提取TFIDF以及统计特征,训练和预测 任务3:加载中文词向量,自己训练中文词向量 任务4:使用中文 ...
- 千言数据集:文本相似度——BERT完成NSP任务
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...
- 过年刷【千言数据集:文本相似度】比赛
过年刷千言数据集:文本相似度数据集 1.比赛信息 2. 数据集介绍 3. 模型细节 3.1 数据增强: 3.2 模型: 3.3 训练: 3.4 模型融合: 其他:可以提高的点 或者 没有用尝试. 1. ...
- 容联云AI问鼎“千言数据集—实体链指评测“,持续打造知识语义计算能力
容联云研发并积累了面向业务知识图谱敏捷构建与应用的核心算法能力,可快速响应业务需求,并利用"知识"增强现有的语义理解技术,解决用户的知识查询等问题. 近日,容联云知识及语义计算技术 ...
- 梅开二度!容联云AI荣登“千言数据集-语义解析”权威测评榜首
近日,容联云AI研究院自主研发的表格问答技术在中文"千言数据集:语义解析"行业测评中击败多支劲旅,荣登榜首.此前容联云已荣获"千言数据集:实体链指"评测冠军. ...
- 千言数据集:文本相似度——数据读取部分
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...
- 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀
[前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...
- 软件测试的8.20原则,四个维度,拆解「软件测试中的80 / 20原则」
一.80% 的软件缺陷,聚集在软件 20% 的模块中 优秀的测试人员会根据这个原则,非常快速的找出较多的缺陷(这个原则可以解释一个你的苦恼:为何你苦苦测了几天,都没发现有啥缺陷:你老大慢悠悠的走了过来 ...
- 权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点
自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误.臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千 ...
最新文章
- 网络编程学习笔记(gethostbyname2函数与IPv6支持)
- STM32F103之FLASH组织
- AAAI 2022有哪些值得读的NLP相关论文?
- 感知机实现与、或、与非门和异或门
- Linux网络 - 数据包的接收过程
- python是动态还是静态_python之静态方法和动态方法介绍
- mysql 大量数据 更改索引_MySql——来自狂神说Java - 贤贤贤sir
- php提取ip源码,PHP(源码) 如何获取客户端的IP地址
- 阳明大神---容器时代
- php 浮点型能位运算,重读PHP手册笔记系列(二)
- 如何高效开发支付接口对接
- [转]java classLoader 体系结构
- C语言实现大小端转换
- C语言求素数/质数最高效的方法
- 同比 数据模型 环比_同比和环比计算公式?
- 杂记——贝叶斯可信区间与频率置信区间的区别
- python调用pyd_Python import / pyd / dll
- ios6 屏幕旋转总结
- yaourt 之 Curl 错误
- python 实现MR