入坑传送门

赛事介绍

文本匹配拥有广泛的应用场景,可以用于去除重复问题和文本相似度中。在本次学习中我们将学习:

  • 如何计算文本之间的统计距离
  • 如何训练词向量 & 无监督句子编码
  • BERT模型搭建和训练

上述步骤都是一个NLP算法工程师必备的基础,从2023.1.4~2023.2.1,我们将逐步从基础出发,逐步解决文本匹配问题。

背景介绍

文本语义匹配是自然语言处理中一个重要的基础问题,NLP 领域的很多任务都可以抽象为文本匹配任务。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。语义匹配在搜索优化、推荐系统、快速检索排序、智能客服上都有广泛的应用。如何提升文本匹配的准确度,是自然语言处理领域的一个重要挑战。

信息检索:在信息检索领域的很多应用中,都需要根据原文本来检索与其相似的其他文本,使用场景非常普遍。
新闻推荐:通过用户刚刚浏览过的新闻标题,自动检索出其他的相似新闻,个性化地为用户做推荐,从而增强用户粘性,提升产品体验。
智能客服:用户输入一个问题后,自动为用户检索出相似的问题和答案,节约人工客服的成本,提高效率。

让我们来看一个简单的例子,比较各候选句子哪句和原句语义更相近:

原句:“车头如何放置车牌”
比较句1:“前牌照怎么装”
比较句2:“如何办理北京车牌”
比较句3:“后牌照怎么装”
比较结果:

  • 比较句1与原句,虽然句式和语序等存在较大差异,但是所表述的含义几乎相同
  • 比较句2与原句,虽然存在“如何” 、“车牌”等共现词,但是所表述的含义完全不同
  • 比较句3与原句,二者讨论的都是如何放置车牌的问题,只不过一个是前牌照,另一个是后牌照。二者间存在一定的语义相关性
    所以语义相关性,句1大于句3,句3大于句2,这就是语义匹配。

天池比赛

【打卡】医学搜索Query相关性判断学习赛相关推荐

  1. 搜索-Query理解(全)

    Query 模块: 纠错 分词 紧密度 同义词 词权重 实体词识别 意图识别 长尾 query 的多样性对于搜索系统来说是一个很大的挑战,原因有: ❶ 存在输入错误.例如上图中的错误 query &q ...

  2. Elasticsearch 搜索的高级功能学习

    在文章 Elasticsearch 入门学习 中介绍了 Elasticsearch 的基础概念以及一些常用的 API.这篇文章是继续对 Elasticsearch 中一些高级的搜索功能的学习和总结: ...

  3. 知乎搜索文本相关性与知识蒸馏

    分享嘉宾:申站 知乎 算法工程师 编辑整理:许宴铭 出品平台:DataFunTalk 导读:大家好,我是申站,知乎搜索团队的算法工程师.今天给大家分享下知乎搜索中文本相关性和知识蒸馏的工作实践,主要内 ...

  4. 搜索-Query Understanding (QU)

    往简单来讲,用户输入了搜索词,系统通过搜索词找到与搜索词相关的商品集合,系统通过用户及商品的情况进行排序,最终展现给用户. 0.找不到 但是在构建搜索系统的初期总是无法精准地帮助用户找到想要的商品主要 ...

  5. 消息队列(Message Query)的初学习

    消息队列(Message Query)的初学习   摘要:本篇笔记主要记录了对于消息队列概念的初次学习.消息队列的基础知识. 文章目录 消息队列(Message Query)的初学习 1.何为消息? ...

  6. Airbnb搜索:Embedding表示学习

    导读 本文将基于Airbnb KDD 2018年的论文,介绍Airbnb搜索中,如何学习item.user embedding,并应用到搜索推荐中.对工业界搜索推荐系统中如何更好地学习embeddin ...

  7. 综述:当医学影像遇上深度学习

    2019-11-24 17:45:16 作者 | 李翔 来源 | 视说AI(ID:techtalkai) 在传统医疗领域,医院内每日的医学影像数据量巨大,影像科医生做着大量重复性和机械性的工作.每张片 ...

  8. 数据结构与算法之判断一棵树是否为搜索二叉树、判断一棵树是否是完全二叉树

    数据结构与算法之判断一棵树是否为搜索二叉树.判断一棵树是否是完全二叉树 目录 判断一棵树是否为搜索二叉树 判断一棵树是否是完全二叉树 1. 判断一棵树是否为搜索二叉树 概念:搜索树就是中序遍历的结果是 ...

  9. Kusto Query Language (KQL) 学习笔记

    Kusto Query Language (KQL) 学习笔记 Kusto 是一种nosql,其有自身的查询语言规则,简称KQL. 学习笔记持续更新中,点击每个节点的小加号,展开小节内容 KQL学习笔 ...

最新文章

  1. onSaveInstanceState与onRestoreInstance
  2. [汇编语言学习笔记][第二章寄存器]
  3. VS2010 重命名文件:源文件名和目标文件名相同 的解决方案
  4. Java中多线程启动,为什么调用的是start方法,而不是run方法?
  5. 动态判断时间插件显示到年月日时分秒
  6. 关于conda和anaconda不可不知的误解和事实——conda必知必会
  7. oracle 表分析 影响,oracle 表分析
  8. vscode 智能打印_vscode智能提示
  9. Qt sqlit3的增、删、改、查、判断等基本操作接口
  10. c#二叉树 取叶子节点个数_两种类似但是原理不同的算法求二叉树的所有叶子节点和...
  11. GEE:快速下载数字高程DEM数据
  12. 廊坊交警利用智能交通管控平台助力平安建设工作
  13. 根据入职日期计算工龄
  14. 坚持努力,在黑暗中寻找光明——我的2014
  15. mysql 关键字 desc_mysql数据库表字段使用DESC等关键字报错及解决方法
  16. LCM ASN 在MOBILE下收货流程的后台数据流
  17. 19.猜数字的游戏:随机生成数字与输入数字进行比较
  18. 熊猫烧香版《菊花台》pk《菊花台》
  19. 一图读懂 | “数据二十条”
  20. 如何解决Unsupported Architecture. Your executable contains unsupported architecture '[x86_64, i386]

热门文章

  1. Android 实现分割线的几种方式
  2. 【Chrome Extensions】实现一个可以下载图片的Chrome插件
  3. 蝴蝶效应,青蛙现象,鳄鱼法则,鲇鱼效应,羊群效应,刺猬法则,手表定律,破窗理论,二八定律,木桶理论,马太效应,这些你都明白吗?...
  4. Unity3D中使用Leap Motion进行手势控制
  5. 安徽身份证网上办理最全攻略
  6. 【字典树】字典树的创建(入门详细介绍)
  7. Python爬虫系列(一)环境搭建,以及简单使用,体验他的强大
  8. Openpose2d转换3d姿态识别
  9. 基于HMM的拼音转汉字程序
  10. 基于Android的sina微博分享功能