路径生成:通过实体链接获取到了问题中的实体,路径生成则是从实体出发,遍历KG,生成所有可能的答案路径,在过程中对路径进行剪枝。

1、路径召回

路径召回策略分为单实体多实体两种情况。其中,多实体优先,即:如果多实体间存在路径,则不进行单实体召回。

1.1 单实体路径召回策略:

(1) 作为头实体的一度路径 <实体><关系><?x>;

(2) 作为尾实体的一度路径 <?x><关系><实体>;

(3) 对 (1) 扩展至二度出路径 <实体><关系1><?x><?x><关系2><?y>;

(4) 对 (1) 扩展至二度入路径 <实体><关系1><?x><?y><关系2><?x>;

(5) 对 (2) 扩展至二度出路径 <?x><关系1><实体><?x><关系2><?y>;

(6) 对 (2) 扩展至二度入路径 <?x><关系1><实体><?y><关系2><?x>。

1.2 多实体路径召回策略(以双实体为例):

(1) 一度路径 <实体1><关系1><?x><实体2><关系2><?x>;

(2) 一度路径 <?x><关系1><实体1><?x><关系2><实体2>;

(3) 一度路径 <?x><关系1><实体1><实体2><关系2><?x>;

(4) 一度路径 <实体1><关系1><?x><?x><关系2><实体2>;

(5) 对 (1)(同2、3、4) 扩展至二度出路径 <实体><关系1><?x><实体2><关系2><?x><?x><关系3><?y>;

(6) 对 (1)(同2、3、4) 扩展至二度入路径 <实体><关系1><?x><实体2><关系2><?x><?y><关系3><?x>;

(7) 实体间的关系<实体1><?x><实体2>。

2、剪枝

为避免候选答案数目爆炸,我们根据以下策略进行剪枝。

(1) 删除一跳路径中答案实体是话题实体的路径,避免将话题实体本身作为答案;

(2) 如果二跳节点超过10000个,则不进行二跳;

(3) 删掉二跳路径中答案实体是话题实体的路径,避免将话题实体本身作为答案;

(4) 当二跳路径(出或入)数超过100条但小于500时,删掉二跳路径(出或入)中的关系与问句没有任何字符上的交集的候选答案路径;

(5) 当二跳路径(出或入)数超过500时,过滤掉所有二跳路径。

3、路径排序

路径排序分为粗排和精排两个步骤。

3.1 粗排

根据问题query和候选路径path的特征,对候选路径进行粗排,可采用机器学习模型,如:LightGBM、XGBOOST等,保留top20条路径,可参考以下特征进行特征工程时:

  1. 字符特征

    • 字符重合数
    • 词重合数
    • 字符的Jaccard相似度(类似IOU)
    • 词的Jaccard相似度(类似IOU)
    • 编辑距离
    • path的字符是否全部在query中
  2. path自身特征
    • 答案的个数
    • path的跳数
    • path中实体的个数
    • path中关系的个数
    • path的长度
  3. 语义特征
    • 字级别向量的相似度
    • 词级别向量的相似度(可用jieba切词)
    • bi-gram级别向量相似度(可用ac自动机等)
  4. 流行度特征
    • 答案在KG中出现的频率
    • 答案不同的一度关系的个数
  5. 数字特征
    • 数字的重合数
    • query与path的Jaccard相似度
    • path中的数字是否全部在query中
  6. 其他特征
    • 候选答案是否在query中
    • path中的关系是否在query中
    • path中的意图是否在query中

3.2 精排

3.1中使用lgb等机器学习模型的主要目的通过粗排,减少精排过程中的数据量,在精排时能够好的利用预训练语言模型计算query和path的语义匹配度,选择得分最高的答案路径作为答案。

公众号:自然语言处理及深度学习

Path-Ranking:KBQA中path生成、召回、粗排与精排相关推荐

  1. 推荐搜索,召回、粗排、精排之间的漏斗考虑

    一.首先从数量上看下这几个阶段 二.粗排漏斗分析 1:学习目标 学习目标是"精排的输出"(可能只是曝光+点击,有时也会用到unpv样本),尽量保证粗排和精排的效果一样,取topk才 ...

  2. 推荐系统的主要四个阶段(召回、粗排、精排、重排)

    概括 阶段 特点 召回 从海量物品中快速找回一部分重要物品 粗排 进行粗略排序,保证一定精准度并减少物品数量 精排 精准地对物品进行个性化排序 重排 改进用户体验 传统划分: 1.召回 根据用户部分特 ...

  3. 推荐系统召回、粗排、精排综述

    注:为便于个人学习,将搜集的资料整合到一个文档当中 1 召回 召回总结:推荐系统召回策略之多路召回与Embedding召回 推荐书籍:深度学习推荐系统 推荐系统 embedding 技术实践总结:推荐 ...

  4. 全链路总结!推荐算法召回-粗排-精排

    作者 | Salon sai  整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/463021052 大家好,这里是NewBeeNLP.现在的推荐系统都是一个很大 ...

  5. 召回粗排精排-级联漏斗(下)

    文 | 水哥 源 | 知乎 saying 召回区分主路和旁路,主路的作用是个性化+向上管理,而旁路的作用是查缺补漏. 推荐系统的前几个操作可能就决定了整个系统的走向,在初期一定要三思而后行. 做自媒体 ...

  6. 一文看懂推荐系统:概要02:推荐系统的链路,从召回粗排,到精排,到重排,最终推荐展示给用户

    一文看懂推荐系统:概要02:推荐系统的链路,从召回粗排,到精排,到重排,最终推荐展示给用户 提示:最近系统性地学习推荐系统的课程.我们以小红书的场景为例,讲工业界的推荐系统. 我只讲工业界实际有用的技 ...

  7. 一文看懂推荐系统:召回07:双塔模型——正负样本的选择,召回的目的是区分感兴趣和不感兴趣的,精排是区分感兴趣和非常感兴趣的

    一文看懂推荐系统:召回07:双塔模型--正负样本的选择,召回的目的是区分感兴趣和不感兴趣的,精排是区分感兴趣和非常感兴趣的 提示:最近系统性地学习推荐系统的课程.我们以小红书的场景为例,讲工业界的推荐 ...

  8. 一文看懂推荐系统:排序06:粗排三塔模型,性能介于双塔模型和精排模型之间

    一文看懂推荐系统:排序06:粗排三塔模型,性能介于双塔模型和精排模型之间 提示:最近系统性地学习推荐系统的课程.我们以小红书的场景为例,讲工业界的推荐系统. 我只讲工业界实际有用的技术.说实话,工业界 ...

  9. 推荐系统中精排模型的多目标优化

    0.背景 优化单个目标训练而得的点击率预估模型偏向过重,容易引发bad case(如信息流推荐中单一优化pCTR引起标题党) 从整体上拓宽用户从点击到转化漏斗的宽度,而不是单独拓宽某一层 满足多业务方 ...

最新文章

  1. 干货丨浅析分布式系统(经典长文,值得收藏)
  2. 在交换机上,广播帧是如何发送的,
  3. python期末考试题及答案翻译-[译]Python面试中8个必考问题
  4. 05《软件需求模式》阅读笔记
  5. efcore 实体配置_快速掌握EF Core使用技能
  6. java selenium (六) XPath 定位
  7. 在MFC单文档中,如何操作状态栏
  8. 计算机辅助工程分析及应用论文,计算机辅助工程计量的论文
  9. Arduino学习笔记-新的按键控制方式
  10. 多学一点(十三)——解决Linux kdump服务启动失败
  11. 下跌趋势底背驰的几种经典信号
  12. 数据库系统概论-数据库系统阶段的特点
  13. 看完这一篇,智能家居的坑你至少避开80%(上)
  14. 近十年量化交易领域最重要的十本参考书是哪些
  15. hmmer建立hmmscan
  16. 数电仿真实验-数字钟的设计
  17. 从今天起,做一个闲人,喂马、劈柴,周游世界。。。
  18. Plexus——Spring之外的IoC容器
  19. 第4章 Linux下的C语言开发基础
  20. ubuntu 20.04 禁止自动休眠

热门文章

  1. 如何将CAD转PDF或者CAD转成Word的方法
  2. Lammps实现甲烷与水的竞争吸附-循环不同气体分子
  3. 电子系统中的品质因数Q
  4. .net程序员转行做手游开发经历
  5. 送一台程序员看片神器,真香!
  6. 钉钉查看员工UserID
  7. Jacob、openOffice、aspose、apire几个常用操作word的jar对比
  8. 奉献祖传风湿病产后风偏方【绝非广告】
  9. Cubase 5.1.2 WiN 中文完整版音乐制作软件
  10. 理光M2701复印机载体初始化方法