自然语言处理与文本检索
今天开始把翟成祥教授的文本检索课程做一下笔记。
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。
nlp的主要内容
1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注
2 句法分析(syntactic analysis):句法树、依存关系分析
3 语义分析(semantic analysis):
Dog(d1).
Boy(b1).
Playground(p1).
Chasing(d1,b1,p1).
应用:实体识别、关系识别、情感分析。
4 推论(Inference)
Scared(b1)
5 语用分析(pragmatic analysis = speech act)
语言分析的最高级形式
nlp的难度
原因1:nlp是用于人类交流的,不是用于机器交流。
原因2:人类交流是会产生歧义的(ambiguity),人类交流是有一个常识库(common sense)的。
词级别的歧义。“设计”这个词可以是一个动词,也可以是一个名词。这在词性标注的时候就会产生歧义。例句:这座大楼的设计(名词)很先进。这座大楼是他设计(动词)的。“意思”这个词在汉语中会有多层含义。例句1:这篇文章的中心意思是我们过马路要遵守交通规则。例句2:这不过是我的一点小意思,您收下吧。这两个句子中“意思”就有不同的含义。
句法级别的歧义。例如“natural language processing”可以理解为“自然语言的处理”,也可以理解为“自然的语言处理”。再举例:“A man saw a boy with a telescope”是一个男人拿着望远镜看到了一个男孩,还是一个男人看到了一个拿着望远镜的男孩。举个中文例子“关心学校的老师”是说 一个老师关心学校呢 还是说 有别人关心某个学校的老师。(中文例子来源于中国华文教育网)
指代歧义(anaphora resolution):指代不明。“John persuaded Bill to buy a TV for himself”.himself 是指Johb还是Bill。
假想问题(Presupposition):例如“He has quit smoking”。说明他曾经抽过烟。
以上问题,都说明要想正确理解自然语言,需要维护一个庞大的常识库,以及分辨出上下文关系。
nlp目前能做到的
这些资料是几年前的。这些数字是基于某一数据集得来的,不用太在意这些数值。词性标注:97%;句法分析:90%;语义分析:某些领域;推理:能做的事情不多;语用分析:特定的例子。
nlp用于文本搜索
文本搜索引擎需要健壮、高效。
信息获取的两种方式
push:推荐系统
pull:搜索系统
这两种系统都会介绍,首先会介绍搜索系统(在下一篇)。
自然语言处理与文本检索相关推荐
- 拿着35W年薪,混的却不如实习生
在职场好几年,一直在吃老本,觉得处理的了公司的问题就够用了,直到来了个实习生才发现自己掌握的技术已经落伍了很久. 恍然大悟才明白为何公司给实习生的待遇如此丰厚,同时公司对于实习生的要求也慢慢提高... ...
- 2022 年度「博客之星」评选TOP 200进100结果已出炉
2022年「博客之星」年度评选马上进入专家评审阶段,「博客之星」评选TOP 200 进 100 结果也已出炉.具体名单以及评选规则如下: TOP 100 名单(按照码龄排序) CSDN ID 昵称 博 ...
- 国外牛人总结的机器学习领域的框架、库以及软件
国外牛人总结的机器学习领域的框架.库以及软件 本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). C++计算机视觉 CCV -基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 O ...
- 2020开年大爆炸,我该如何高薪就业?
现在疫情期间很多人失业,想要重新进入市场找工作,就业压力变大.企业选择变多,对求职者能力考察难度变大. 求职者原有的技能已经不足以满足企业对人才的要求,求职者该如何提升自己? 后厂理工学院推出 AI ...
- 各种语言的机器学习框架
C++ 计算机视觉 ·CCV-基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 ·OpenCV-它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, ...
- 国外程序员整理的机器学习资源大全
原文链接:awesome-machine-learning翻译:伯乐在线 -toolate 译文链接:http://blog.jobbole.com/73806/ 本文汇编了一些机器学习领域的框架.库 ...
- 推荐!国外程序员整理的机器学习资源大全
原文: http://www.oschina.net/news/53818/awesome-machine-learning 本列表选编了一些机器学习领域牛B的框架.库以及软件(按编程语言排序). C ...
- 史上最全的机器学习资料(下)
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能 ...
- 深度学习在自然语言处理研究上的进展
深度学习在自然语言处理研究上的进展 发表于3个月前(2016-01-25 14:26) 阅读(328) | 评论(0) 6人收藏此文章, 我要收藏 赞0 摘要 最近比较关注深度学习在NLP中的应用 ...
最新文章
- angular搭建项目步骤_建立健康的Angular项目应采取的步骤
- Node Capital生态布局初成,部分项目差强人意
- [二叉树建树] 后序遍历与中序遍历建立二叉树
- vue赋值成功后再回调_vue 回调赋值?
- opencv yuv保存本地_OpenCV-dlib-python3实现人脸戴墨镜和含Y的抖音效果
- 简单人物画像_你真的理解用户画像吗?| 船说
- [深度学习TF2] 梯度带(GradientTape)
- python一次性输入多个数_python如何一次性输入多个数
- junit5和junit4_JUnit声明异常– JUnit 5和JUnit 4
- ASP.NET MVC 使用dataTable(3)--更多选项参考
- 归并排序递归实现迭代实现
- ARM常用汇编指令讲解
- JAVA的stream流操作详细解析
- excel怎么把竖排变成横排_桐城家谱编修丨麻城家谱数字化丨新时代编修家谱该怎么编修?...
- 博主熬夜手写个SpringMVC框架
- Jupyter Notebook对数据集进行数据分析 数据统计(含:样本数量/样本长度/样本长度分布图/示例样本打印)
- 学习python入门2
- Node Sass does not yet support your current environment: OS X 64-bit with Unsupported runtime (93)
- 这年头学计算机有用吗,现在学修电脑有前途吗?
- java实现好友添加_SpringBoot+LayIM+t-io 实现好友申请通知流程