斯坦福NLP笔记72 —— The Inverted Index
2019独角兽企业重金招聘Python工程师标准>>>
Inverted Index是信息抽取里最常用的数据结构,来看看他长啥样:
Brutus指向数字X则代表X号文档中包含了Brutus这个词。
左边的索引词称为Dictionary,右边的文档ID称为Posting,是排好序的。
存储
Dictionary相对体积较小,一般存在内存(memory)中,而Posting比较大,一般存在硬盘中(disk)。
构建Inverted Index
假设documents长这样:Friends,Romans,Countrymen.
经过token stream处理以后,变成这样:Friends Romans Countrymen.
tokenizer的作用在于把字符串割成一个个单个的term。
然后再经过一个语言模型,变成这样:friend roman countryman
大小写变了、单复数变了等
所以语言模型的作用在于标准化,canonical form
接下来就可以进行index操作了
上述文本处理的一些细节
Tokenize的时候,possessives和hyphenated term应该作何处理?(视情况而定)
规则化的时候,如何把“U.S.A”和"USA"match起来
Stemming的时候,是否应该把相同stem的词等效起来?
“the\a\to”这些词是否应该扔掉?有时候他们不能扔,譬如:“To be ,or not be ?”
indexer的细节:
遍历所有doc,得到右表。
以term为关键字排序,term相同的时候按docID排序。
相同的项合并(但词频不增加,仅仅是合并成一项而已)
分离后term后面紧接着存储该term一共在多少个doc里出现过
占用的空间
存储terms和他们对应的count
存指针
存docID的list
最后看看今天的练习题:
正确答案是第一个。
转载于:https://my.oschina.net/silverhammer/blog/293727
斯坦福NLP笔记72 —— The Inverted Index相关推荐
- 斯坦福NLP笔记51 —— An Intro to Parts of Speech and POS
2019独角兽企业重金招聘Python工程师标准>>> 转载于:https://my.oschina.net/silverhammer/blog/293141
- ElasticSearch 学习笔记(一):倒排索引(Inverted index)
分析一个术语,要先从名称入手 倒排索引,英文原名Inverted index,大概因为 Invert 有颠倒的意思,就被翻译成了倒排.但是倒排这个名称很容易让人理解为从A-Z颠倒成Z-A.个人觉得翻译 ...
- 斯坦福NLP名课带学详解 | CS224n 第18讲 - 句法分析与树形递归神经网络(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第15讲 - NLP文本生成任务(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第12讲 - NLP子词模型(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第19讲 - AI安全偏见与公平(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第10讲 - NLP中的问答系统(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第11讲 - NLP中的卷积神经网络(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
- 斯坦福NLP名课带学详解 | CS224n 第20讲 - NLP与深度学习的未来(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
最新文章
- 【DIY】木质音乐盒,聆听一下治愈之音。How To Make Music box out of nothing at all
- fiddler和wireshark工具介绍及对比 - [测试技术知识]
- ubuntu下安装并配置VIM编辑器
- C#事件-自定义事件
- 多线程执行CPU过高问题
- IBM Cloud Paks:云端追光者也!
- html checkbox 透明度,【求助】关于表达式checkbox中不透明度的设置
- java Http post请求发送json字符串
- 炼数成金数据分析课程---10、python中如何画图
- ATL 线程触发事件解决方案
- 555定时器产生对称三角波电路
- bitcode 是什么_secured是什么意思 Secured borrowings是什么意思
- 基于非结构网格的仿真——太湖之光上的巨大挑战
- 联想服务器系统备份,操作演示:恢复预装系统前的数据备份方法
- 工程测量的各种数据考点
- 计算机网络与安全课程设计,计算机网络课程设计-网络安全..doc
- Minecraft 命令方块:简易计时器
- JVM成神之路-Java内存模型(JMM)
- iOS应用突然无法从App Store获取到内购(IAP)产品列表的解决
- _parameter;@param,refid是什么意思?
热门文章
- java异步请求显示数据格式_JSON(四)——异步请求中前后端使用Json格式的数据进行交互...
- mysql安装连接测试c_C连接MySQL数据库开发之Windows环境搭建及测试_MySQL
- 服务器修改网卡,美国服务器CentOS 6.x修改网卡名称的方法
- 整理第十六届全国大学智能车竞赛比赛数据
- 为何信标无线充电总是烧板子?
- 世界上最美丽的23个公式
- 基于串级PID的直立车控制算法研究
- 【java8】中stream的.findAny().orElse (null) 是什么意思?
- php dir opendir,php opendir()列出目录下文件的方法代码
- 显色指数测试软件,显色性