http://52opencourse.com/70/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%80%E8%AF%BE-%E5%BC%95%E8%A8%80%EF%BC%88introduction%EF%BC%89

斯坦福大学自然语言处理第一课“引言(Introduction)”

一、课程介绍

斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:
https://class.coursera.org/nlp/

以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。

课件汇总下载地址:斯坦福大学自然语言处理公开课课件汇总

二、自然语言处理概览——什么是自然语言处理(NLP)

1)相关技术与应用

  • 自动问答(Question Answering,QA):它是一套可以理解复杂问题,并以充分的准确度、可信度和速度给出答案的计算系统,以IBM‘s Waston为代表;
  • 信息抽取(Information Extraction,IE):其目的是将非结构化或半结构化的自然语言描述文本转化结构化的数据,如自动根据邮件内容生成Calendar;
  • 情感分析(Sentiment Analysis,SA):又称倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从大量网页文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向;
  • 机器翻译(Machine Translation,MT):将文本从一种语言转成另一种语言,如中英机器翻译。
  • ... ...
2)发展现状
  • 基本解决:词性标注、命名实体识别、Spam识别
  • 取得长足进展:情感分析、共指消解、词义消歧、句法分析、机器翻译、信息抽取
  • 挑战:自动问答、复述、文摘、会话机器人

3)NLP主要难点——歧义问题
  • ​词法分析歧义

    • ​分词,如“严守一把手机关了”,可能的分词结果“严守一/ 把/ 手机/ 关/  了” 和“严守/ 一把手/ 机关/  了”
    • 词性标注,如“计划”在不同上下文中有不同的词性:“我/ 计划/v 考/ 研/”和“我/ 完成/ 了/ 计划/n”
  • 语法分析歧义
    • ​“那只狼咬死了猎人的狗”
    • ”咬死了猎人的狗失踪了”
  • 语义分析歧义
    • 机器翻译:句子“At last, a computer that understands you like your mother”可以有多种含义,如下:

      • 计算机会像你的母亲那样很好的理解你(的语言)
      • 计算机理解你喜欢你的母亲
      • 计算机会像很好的理解你的母亲那样理解你
  • NLP应用中的歧义
    • 音字转换:拼音串“ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu”中的“ji qi”如何转换成正确的词条
4)为什么自然语言理解如此困难?
  • 用户生成内容中存在大量口语化、成语、方言等非标准的语言描述
  • 分词问题
  • 新词不断产生
  • 基本常识与上下文知识
  • 各式各样的实体词
  • ... ...

为了解决以上难题,我们需要掌握较多的语言学知识,构建知识库资源,并找到一种融合各种知识、资源的方法,目前使用较多是概率模型(probabilistic model)或称为统计模型(statistical model),或者称为“经验主义模型”,其建模过程基于大规模真实语料库,从中各级语言单位上的统计信息,并且,依据较低级语言单位上的统计信息,运行相关的统计、推理等技术计算较高级语言单位上的统计信息。与其相对的“理想主义模型”,即基于Chomsky形式语言的确定性语言模型,它建立在人脑中先天存在语法规则这一假设基础上,认为语言是人脑语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。

本课程主要侧重于基于统计的NLP技术,如Viterbi、贝叶斯和最大熵分类器、N-gram语言模型等等。

三、参考资料

  1. Lecture Slides:Introduction
  2. http://en.wikipedia.org
  3. 关毅,统计自然语言处理基础 课程PPT
  4. 赵妍研,文本情感分析综述
  5. 刘群、王海峰、王惠临、宗成庆、赵铁军、史晓东、朱靖波、陈家俊、张民,机器翻译技术的进展与展望,中文信息学会成立三十周年学术会议,2011年12月4-5日,北京

斯坦福大学自然语言处理第一课“引言(Introduction)”相关推荐

  1. Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)”

    Coursera公开课笔记: 斯坦福大学机器学习第一课"引言(Introduction)" 注:这是我在"我爱公开课"上做的学习笔记,会在52opencours ...

  2. 斯坦福大学机器学习第一课“引言(Introduction)”

    斯坦福大学机器学习第一课"引言(Introduction)" 一.机器学习概览 1)机器学习定义:机器学习是人工智能的一个分支,目标是赋予机器一种新的能力.机器学习的应用很广泛,例 ...

  3. 斯坦福大学机器学习第八课“神经网络的表示(Neural Networks: Representation)”

    斯坦福大学机器学习第八课"神经网络的表示(Neural Networks: Representation)" 斯坦福大学机器学习第八课"神经网络的表示(Neural Ne ...

  4. Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”

    Coursera公开课笔记: 斯坦福大学机器学习第六课"逻辑回归(Logistic Regression)" 斯坦福大学机器学习第六课"逻辑回归"学习笔记,本次 ...

  5. 斯坦福大学机器学习第六课“神经网络的表示(Neural Networks: Representation)”

    斯坦福大学机器学习第六课"神经网络的表示(Neural Networks: Representation)" 本次课程主要包括7部分: 1)  Non-linear hypothe ...

  6. 斯坦福大学机器学习第四课“逻辑回归(Logistic Regression)”

    斯坦福大学机器学习第四课"逻辑回归(Logistic Regression)" 本次课程主要包括7部分: 1) Classification(分类) 2) Hypothesis R ...

  7. 斯坦福大学自然语言处理研究的《信息检索》课程

    斯坦福大学自然语言处理研究的信息检索网上公开课程 课程根据IR界著名的克里斯托弗D.曼宁教授的<Introduction to Information Retrieval>一书讲述,对IR ...

  8. Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化(Regularization)”

     Coursera公开课笔记: 斯坦福大学机器学习第七课"正则化(Regularization)" +13投票 斯坦福大学机器学习第七课"正则化"学习笔记, ...

  9. Coursera公开课笔记: 斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)”

    Coursera公开课笔记: 斯坦福大学机器学习第十一课"机器学习系统设计(Machine learning system design)" 斯坦福大学机器学习斯坦福大学机器学习第 ...

  10. 斯坦福大学机器学习第十课“应用机器学习的建议(Advice for applying machine learning)”

    斯坦福大学机器学习第十课"应用机器学习的建议(Advice for applying machine learning)" 斯坦福大学机器学习斯坦福大学机器学习第十课"应 ...

最新文章

  1. ps作业素材和成品_看完俄罗斯这位PS大神的P图!分分钟感觉自己被秒杀!
  2. Scanner 中next()和nexline()方法的区别
  3. linux操作系统颜色,Linux小技巧之man pages设置高亮颜色
  4. python求同构数_用c语言求1到1000的同构数_后端开发
  5. 卷积神经网络的卷积核的每个通道是否相同?
  6. Jenkins发布PHP代码
  7. 服务器如何用pe系统安装,pe下安装服务器系统安装教程
  8. linux tomcat8+jdk1.8u201百度云盘下载
  9. 再见2018,你好2019!
  10. Python判断坐标点在五环线以内
  11. 挖掘长尾关键词的五大思路
  12. ubuntu好用的输入法googlepinyin
  13. 图像分类竞赛——添翼杯人工智能应用创新大赛——rank4解决方案
  14. win10 werfault.exe 内存不能read 修复
  15. Windows值得推荐的桌面管理软件
  16. 思科交换机-常用命令及配置
  17. ORACLE表格操作图文教学二(分组去重、计数、加减、多表)
  18. Python 基于卷积神经网络(textCnn)对药品或疾病分类(适用于疾病归一化和药品归一化)
  19. PMP考试流程是怎样的?
  20. My Writeup

热门文章

  1. 异度之刃2 任务打杂店的帮手去哪获取纯洁石
  2. python中while和for的运行顺序_详解python while 函数及while和for的区别
  3. OSPF协议的四种网络类型
  4. 全文检索技术Lucene
  5. 14152学年C#程序设计语言与.Net框架基础课程之学生blog名单
  6. Access Violation(非法访问)错误的解决方法
  7. 红外光电测速传感器电路设计
  8. 腹腰部肌肉锻炼(腰会变粗)
  9. 黑客知识之7种DoS攻击方法简述
  10. 制作你软盘镜像_codestorm_新浪博客