提示:
信息检索:文档评分-词项权重计算-向量空间模型
 第二部分:词项频率

文章目录

  • 词项频率
    • 词袋模型
    • 词项文档计数矩阵
      • 词项频率tf

词项频率

回顾词项文档关联矩阵

词袋模型

不考虑词项在文档中出现的顺序。如“A is bigger than B”和“B is bigger than A”在词袋模型中是一样的。
显然,这相对于位置索引呢是一种退步。

词项文档计数矩阵

考虑的是词项在文档中出现的次数,区别词项文档关联矩阵(只显示词项在文档中是否存在)。

词项频率tf

词项t在文档d中出现的次数记作:tft,d
那么如何使用tf来计算评分呢?

采用原始的tf值
但是并不是很合适,如果词项A在文档1中出现10次,而在文档2中只出现一次,文档1比文档2更相关,但是相关度不可能是10倍关系。
相关性不随词项频率成比例增加。

采用tf对数表示

文档-词项的匹配得分是所有查询和文档中同时出现的词项对数词频之和

6.2排序式检索 词项频率相关推荐

  1. 6.3排序式检索 tf-idf权重计算

    提示: 信息检索:文档评分-词项权重计算-向量空间模型  第三部分:tf-idf权重计算 文章目录 tf-idf权重计算 权重 文档频率df idf计算举例 cf VS df ※tf-idf权重 tf ...

  2. 【信息检索导论】第六章 词项权重及向量空间模型

    1. 总述 本章主要介绍一下几个问题: 给定关键词,如何评定包含这些关键词的文档中哪些更重要,即如何给文档进行相关性排序 tf-idf算法是什么? 怎样给文档中的词项进行打分? 支配了IR界几十年的空 ...

  3. 《introduction to information retrieval》信息检索学习笔记3 词典和容错式检索

    第3章 词典和容错式检索 3.1 用于词典的搜索结构 给定一个反向索引和一个查询,我们的第一个任务是确定每个查询词是否存在于词汇表中,如果是,则返回指向相应倒排记录表的指针.涉及在数据结构中定位词项. ...

  4. 【信息检索导论】第三章 容错式检索

    总览 本章主要解决以下几个问题: 根据用户的询问,如何找到用户询问中的词语对应的倒排表? 如果用户不记得某个单词怎么拼写,如何实现模糊查询(通配符查询)? 如果用户写错了某个字, 怎么样帮助他纠正,以 ...

  5. TF-IDF词项权重计算

    一.TF-IDF 词项频率: df:term frequency. term在文档中出现的频率.tf越大,词项越重要. 文档频率: tf:document frequecy.有多少文档包含此term, ...

  6. 《introduction to information retrieval》信息检索学习笔记2 词项词汇和倒排记录表

    第2章 词项词汇和倒排记录表 回顾建立倒排索引的主要步骤: 1.收集要索引的文档. 2.词条化文本. 3.对词条进行语言预处理,生成标准化词条. 4.建立倒排索引,索引每个词项出现的文档. 2.1文档 ...

  7. 搜索引擎核心技术与算法 —— 词项词典与倒排索引优化

    一只小狐狸带你解锁NLP/ML/DL秘籍 作者:QvQ 老板-我会写倒排索引啦!我要把它放进咱们自研搜索引擎啦! 我呸!你这种demo级代码,都不够当单元测试的! 嘤嘤嘤,课本上就是这样讲的呀?! 来 ...

  8. 关于对话系统(任务式/检索式/生成式)的若干总结

    目录 Intro 1 任务式对话系统 2 检索式对话系统 3 生成式对话系统 Reference 最近一直在调研对话系统,细细研究发现里面的细分知识点非常多,任务式/检索式/生成式对话系统每个里面的都 ...

  9. WWW 2020 | 信息检索中基于上下文的文本词项权重生成

    ©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 本文由卡耐基梅隆大学发表于 WWW 2020,介绍了基于上下文的文本词项权重生成方法 HDCT.原有的搜索 ...

  10. 信息检索(基础知识一)——词项-文档关联矩阵及倒排索引构建

    sdnu 202011000106 实现内容: (本文中用到的文件名为:hyatt-k,有需要可以留言) 利用文件读取方法对给定邮件数据集中的文本文件进行预处理,并按照图1中的词项词典构造流程生成词项 ...

最新文章

  1. 爬虫入门的基本原理,如果你连这些都不知道那你可以放弃爬虫了
  2. 解决标签回车后产生的空格
  3. Python编程专属骚技巧4
  4. 当安全遇到大数据 “永恒之蓝”也将无所遁形!
  5. JS实例:网页上图片延迟加载的JS代码
  6. 从哲学源头思考自动驾驶网络架构设计
  7. sqlalchemy 增删改
  8. 【考证】大一规划、考证大军、水水水!
  9. C++类的静态成员函数
  10. 自动刷新徐小明股市直播内容
  11. 微信商户转账到银行卡-java_微信商户平台的钱如何转到个人账户中
  12. 大学计算机应用基础教程读后感,计算机应用基础的课程学习体会
  13. React 16 源码解析笔记 02 - JSX 转换为 ReactElement 的过程
  14. Mac CAD2018 安装完成后,打开注册机时出现 应用程序“02_注册机”不能打开。
  15. 嵌入式linux:通过qemu模拟mini2440开发环境
  16. mysql 事件计划区别_【转】mysql 计划事件
  17. win10輸入法去掉语言栏?win10輸入法切换简体繁体?
  18. 牵丝戏计算机谱,急求牵丝戏计算器谱完整版!!!
  19. 谈用户裂变,社群裂变的重要性
  20. WHQL认证产品可以 现在又可以查询了

热门文章

  1. Java实现简单的银行卡
  2. windows 无法停止ics_Windows10系统不能启动ICS服务致无法连接WiFi热点的三种解决方法...
  3. 计算机桌面图标怎样变大变小,win7电脑桌面图标变大怎么恢复?win7桌面图标怎么变小?...
  4. BLOB/TEXT column ‘h_long_varbinary‘ used in key specification without a key length
  5. 让IE窗口最小化最大化的快捷键
  6. 创建图层-只是保存lyr,此路不通
  7. 金仓数据库字段_金仓数据库认证工程师(KCE)考试试题_含答案_
  8. MySQL有几部分_数据库系统有哪几部分组成?
  9. HTML制作虾米音乐,最新虾米音乐电台调用代码
  10. CryEngine GameLaucher 和Editor