2019独角兽企业重金招聘Python工程师标准>>>

Inverted Index是信息抽取里最常用的数据结构,来看看他长啥样:

Brutus指向数字X则代表X号文档中包含了Brutus这个词。

左边的索引词称为Dictionary,右边的文档ID称为Posting,是排好序的。

存储

Dictionary相对体积较小,一般存在内存(memory)中,而Posting比较大,一般存在硬盘中(disk)。

构建Inverted Index

假设documents长这样:Friends,Romans,Countrymen.

经过token stream处理以后,变成这样:Friends Romans Countrymen.

tokenizer的作用在于把字符串割成一个个单个的term。

然后再经过一个语言模型,变成这样:friend roman countryman

大小写变了、单复数变了等

所以语言模型的作用在于标准化,canonical form

接下来就可以进行index操作了

上述文本处理的一些细节

  • Tokenize的时候,possessives和hyphenated term应该作何处理?(视情况而定)

  • 规则化的时候,如何把“U.S.A”和"USA"match起来

  • Stemming的时候,是否应该把相同stem的词等效起来?

  • “the\a\to”这些词是否应该扔掉?有时候他们不能扔,譬如:“To be ,or not be ?”

indexer的细节:

遍历所有doc,得到右表。

以term为关键字排序,term相同的时候按docID排序。

  1. 相同的项合并(但词频不增加,仅仅是合并成一项而已)

  2. 分离后term后面紧接着存储该term一共在多少个doc里出现过

占用的空间

  • 存储terms和他们对应的count

  • 存指针

  • 存docID的list

最后看看今天的练习题:

正确答案是第一个。

转载于:https://my.oschina.net/silverhammer/blog/293727

斯坦福NLP笔记72 —— The Inverted Index相关推荐

  1. 斯坦福NLP笔记51 —— An Intro to Parts of Speech and POS

    2019独角兽企业重金招聘Python工程师标准>>> 转载于:https://my.oschina.net/silverhammer/blog/293141

  2. ElasticSearch 学习笔记(一):倒排索引(Inverted index)

    分析一个术语,要先从名称入手 倒排索引,英文原名Inverted index,大概因为 Invert 有颠倒的意思,就被翻译成了倒排.但是倒排这个名称很容易让人理解为从A-Z颠倒成Z-A.个人觉得翻译 ...

  3. 斯坦福NLP名课带学详解 | CS224n 第18讲 - 句法分析与树形递归神经网络(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  4. 斯坦福NLP名课带学详解 | CS224n 第15讲 - NLP文本生成任务(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  5. 斯坦福NLP名课带学详解 | CS224n 第12讲 - NLP子词模型(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  6. 斯坦福NLP名课带学详解 | CS224n 第19讲 - AI安全偏见与公平(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  7. 斯坦福NLP名课带学详解 | CS224n 第10讲 - NLP中的问答系统(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  8. 斯坦福NLP名课带学详解 | CS224n 第11讲 - NLP中的卷积神经网络(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  9. 斯坦福NLP名课带学详解 | CS224n 第20讲 - NLP与深度学习的未来(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

最新文章

  1. 【DIY】木质音乐盒,聆听一下治愈之音。How To Make Music box out of nothing at all
  2. fiddler和wireshark工具介绍及对比 - [测试技术知识]
  3. ubuntu下安装并配置VIM编辑器
  4. C#事件-自定义事件
  5. 多线程执行CPU过高问题
  6. IBM Cloud Paks:云端追光者也!
  7. html checkbox 透明度,【求助】关于表达式checkbox中不透明度的设置
  8. java Http post请求发送json字符串
  9. 炼数成金数据分析课程---10、python中如何画图
  10. ATL 线程触发事件解决方案
  11. 555定时器产生对称三角波电路
  12. bitcode 是什么_secured是什么意思 Secured borrowings是什么意思
  13. 基于非结构网格的仿真——太湖之光上的巨大挑战
  14. 联想服务器系统备份,操作演示:恢复预装系统前的数据备份方法
  15. 工程测量的各种数据考点
  16. 计算机网络与安全课程设计,计算机网络课程设计-网络安全..doc
  17. Minecraft 命令方块:简易计时器
  18. JVM成神之路-Java内存模型(JMM)
  19. iOS应用突然无法从App Store获取到内购(IAP)产品列表的解决
  20. _parameter;@param,refid是什么意思?

热门文章

  1. java异步请求显示数据格式_JSON(四)——异步请求中前后端使用Json格式的数据进行交互...
  2. mysql安装连接测试c_C连接MySQL数据库开发之Windows环境搭建及测试_MySQL
  3. 服务器修改网卡,美国服务器CentOS 6.x修改网卡名称的方法
  4. 整理第十六届全国大学智能车竞赛比赛数据
  5. 为何信标无线充电总是烧板子?
  6. 世界上最美丽的23个公式
  7. 基于串级PID的直立车控制算法研究
  8. 【java8】中stream的.findAny().orElse (null) 是什么意思?
  9. php dir opendir,php opendir()列出目录下文件的方法代码
  10. 显色指数测试软件,显色性