今天开始把翟成祥教授的文本检索课程做一下笔记。
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。


nlp的主要内容

 1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注
 2 句法分析(syntactic analysis):句法树、依存关系分析
 3 语义分析(semantic analysis):
  Dog(d1).
  Boy(b1).
  Playground(p1).
  Chasing(d1,b1,p1).
  应用:实体识别、关系识别、情感分析。

 4 推论(Inference)
  Scared(b1)
 
 5 语用分析(pragmatic analysis = speech act)
  语言分析的最高级形式
  

nlp的难度

 原因1:nlp是用于人类交流的,不是用于机器交流。
 原因2:人类交流是会产生歧义的(ambiguity),人类交流是有一个常识库(common sense)的。
 词级别的歧义。“设计”这个词可以是一个动词,也可以是一个名词。这在词性标注的时候就会产生歧义。例句:这座大楼的设计(名词)很先进。这座大楼是他设计(动词)的。“意思”这个词在汉语中会有多层含义。例句1:这篇文章的中心意思是我们过马路要遵守交通规则。例句2:这不过是我的一点小意思,您收下吧。这两个句子中“意思”就有不同的含义。
 句法级别的歧义。例如“natural language processing”可以理解为“自然语言的处理”,也可以理解为“自然的语言处理”。再举例:“A man saw a boy with a telescope”是一个男人拿着望远镜看到了一个男孩,还是一个男人看到了一个拿着望远镜的男孩。举个中文例子“关心学校的老师”是说 一个老师关心学校呢 还是说 有别人关心某个学校的老师。(中文例子来源于中国华文教育网)
 指代歧义(anaphora resolution):指代不明。“John persuaded Bill to buy a TV for himself”.himself 是指Johb还是Bill。
 假想问题(Presupposition):例如“He has quit smoking”。说明他曾经抽过烟。
 以上问题,都说明要想正确理解自然语言,需要维护一个庞大的常识库,以及分辨出上下文关系。

nlp目前能做到的

 这些资料是几年前的。这些数字是基于某一数据集得来的,不用太在意这些数值。词性标注:97%;句法分析:90%;语义分析:某些领域;推理:能做的事情不多;语用分析:特定的例子。

nlp用于文本搜索

 文本搜索引擎需要健壮、高效。

信息获取的两种方式

 push:推荐系统
 pull:搜索系统
 这两种系统都会介绍,首先会介绍搜索系统(在下一篇)。
 
 
 

自然语言处理与文本检索相关推荐

  1. 拿着35W年薪,混的却不如实习生

    在职场好几年,一直在吃老本,觉得处理的了公司的问题就够用了,直到来了个实习生才发现自己掌握的技术已经落伍了很久. 恍然大悟才明白为何公司给实习生的待遇如此丰厚,同时公司对于实习生的要求也慢慢提高... ...

  2. 2022 年度「博客之星」评选TOP 200进100结果已出炉

    2022年「博客之星」年度评选马上进入专家评审阶段,「博客之星」评选TOP 200 进 100 结果也已出炉.具体名单以及评选规则如下: TOP 100 名单(按照码龄排序) CSDN ID 昵称 博 ...

  3. 国外牛人总结的机器学习领域的框架、库以及软件

    国外牛人总结的机器学习领域的框架.库以及软件 本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). C++计算机视觉 CCV -基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 O ...

  4. 2020开年大爆炸,我该如何高薪就业?

    现在疫情期间很多人失业,想要重新进入市场找工作,就业压力变大.企业选择变多,对求职者能力考察难度变大. 求职者原有的技能已经不足以满足企业对人才的要求,求职者该如何提升自己? 后厂理工学院推出 AI ...

  5. 各种语言的机器学习框架

    C++ 计算机视觉 ·CCV-基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 ·OpenCV-它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, ...

  6. 国外程序员整理的机器学习资源大全

    原文链接:awesome-machine-learning翻译:伯乐在线 -toolate 译文链接:http://blog.jobbole.com/73806/ 本文汇编了一些机器学习领域的框架.库 ...

  7. 推荐!国外程序员整理的机器学习资源大全

    原文: http://www.oschina.net/news/53818/awesome-machine-learning 本列表选编了一些机器学习领域牛B的框架.库以及软件(按编程语言排序). C ...

  8. 史上最全的机器学习资料(下)

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能 ...

  9. 深度学习在自然语言处理研究上的进展

    深度学习在自然语言处理研究上的进展 发表于3个月前(2016-01-25 14:26)   阅读(328) | 评论(0) 6人收藏此文章, 我要收藏 赞0 摘要 最近比较关注深度学习在NLP中的应用 ...

最新文章

  1. angular搭建项目步骤_建立健康的Angular项目应采取的步骤
  2. Node Capital生态布局初成,部分项目差强人意
  3. [二叉树建树] 后序遍历与中序遍历建立二叉树
  4. vue赋值成功后再回调_vue 回调赋值?
  5. opencv yuv保存本地_OpenCV-dlib-python3实现人脸戴墨镜和含Y的抖音效果
  6. 简单人物画像_你真的理解用户画像吗?| 船说
  7. [深度学习TF2] 梯度带(GradientTape)
  8. python一次性输入多个数_python如何一次性输入多个数
  9. junit5和junit4_JUnit声明异常– JUnit 5和JUnit 4
  10. ASP.NET MVC 使用dataTable(3)--更多选项参考
  11. 归并排序递归实现迭代实现
  12. ARM常用汇编指令讲解
  13. JAVA的stream流操作详细解析
  14. excel怎么把竖排变成横排_桐城家谱编修丨麻城家谱数字化丨新时代编修家谱该怎么编修?...
  15. 博主熬夜手写个SpringMVC框架
  16. Jupyter Notebook对数据集进行数据分析 数据统计(含:样本数量/样本长度/样本长度分布图/示例样本打印)
  17. 学习python入门2
  18. Node Sass does not yet support your current environment: OS X 64-bit with Unsupported runtime (93)
  19. 这年头学计算机有用吗,现在学修电脑有前途吗?
  20. java实现好友添加_SpringBoot+LayIM+t-io 实现好友申请通知流程

热门文章

  1. uoj#246. 【UER #7】套路(dp+分块?分类讨论?)
  2. 免费生成https证书以及配置
  3. BZOJ 4241 分块
  4. Http方法:Get请求与Post请求的区别
  5. PHP中过滤数组中的元素
  6. Android 各控件的使用 - 按钮(Button)
  7. .NET中栈和堆的比较1
  8. 基于Docker搭建Redis集群(主从集群)
  9. maven jar包冲突的发现与解决[工具篇]
  10. 了解JVM运行时的内存分配