关于“如何学习自然语言处理”,有很多同学通过不同的途径留过言,这方面虽然很早之前写过几篇小文章:《如何学习自然语言处理》和《几本自然语言处理入门书》,但是更推崇知乎上这个问答:自然语言处理怎么最快入门,里面有微软亚洲研究院周明老师的系统回答和清华大学刘知远老师的倾情奉献:初学者如何查阅自然语言处理(NLP)领域学术资料,当然还包括其他同学的无私分享。

不过,对于希望入门NLP的同学来说,推荐你们先看一下这本书: Speech and Language Processing,第一版中文名译为《自然语言处理综论》,作者都是NLP领域的大大牛:斯坦福大学 Dan Jurafsky 教授和科罗拉多大学的 James H. Martin 教授。这也是我当年的入门书,我读过这本书的中文版(翻译自第一版英文版)和英文版第二版,该书第三版正在撰写中,作者已经完成了不少章节的撰写,所完成的章节均可下载:Speech and Language Processing (3rd ed. draft)。从章节来看,第三版增加了不少和NLP相关的深度学习的章节,内容和篇幅相对于之前有了更多的更新:

  Chapter Slides Relation to 2nd ed.
1: Introduction   [Ch. 1 in 2nd ed.]
2: Regular Expressions, Text Normalization, and Edit Distance Text [pptx] [pdf]
Edit Distance [pptx] [pdf]
[Ch. 2 and parts of Ch. 3 in 2nd ed.]
3: Finite State Transducers
4: Language Modeling with N-Grams LM [pptx] [pdf] [Ch. 4 in 2nd ed.]
5: Spelling Correction and the Noisy Channel Spelling [pptx] [pdf] [expanded from pieces in Ch. 5 in 2nd ed.]
6: Naive Bayes Classification and Sentiment NB [pptx] [pdf]
Sentiment [pptx] [pdf]
[new in this edition]
7: Logistic Regression
8: Neural Nets and Neural Language Models
9: Hidden Markov Models   [Ch. 6 in 2nd ed.]
10: Part-of-Speech Tagging   [Ch. 5 in 2nd ed.]
 
11: Formal Grammars of English   [Ch. 12 in 2nd ed.]
12: Syntactic Parsing   [Ch. 13 in 2nd ed.]
13: Statistical Parsing
14: Dependency Parsing   [new in this edition]
 
15: Vector Semantics Vector [pptx] [pdf] [expanded from parts of Ch. 19 and 20 in 2nd ed.]
16: Semantics with Dense Vectors Dense Vector [pptx] [pdf] [new in this edition]
17: Computing with Word Senses: WSD and WordNet Intro, Sim [pptx] [pdf]
WSD [pptx] [pdf]
[expanded from parts of Ch. 19 and 20 in 2nd ed.]
18: Lexicons for Sentiment and Affect Extraction SentLex [pptx] [pdf] [new in this edition]
 
19: The Representation of Sentence Meaning
20: Computational Semantics
21: Information Extraction   [Ch. 22 in 2nd ed.]
22: Semantic Role Labeling and Argument Structure SRL [pptx] [pdf]
Select [pptx] [pdf]
[expanded from parts of Ch. 19 and 20 in 2nd ed.]
23: Neural Models of Sentence Meaning (RNN, LSTM, CNN, etc.)
 
24: Coreference Resolution and Entity Linking
25: Discourse Coherence
 
26: Seq2seq Models and Summarization
27: Machine Translation
28: Question Answering
29: Conversational Agents
30: Speech Recognition
31: Speech Synthesis

另外该书作者之一斯坦福大学 Dan Jurafsky 教授曾经在Coursera上开设过一门自然语言处理课程:Natural Language Processing,该课程目前貌似在Coursera新课程平台上已经查询不到,不过我们在百度网盘上做了一个备份,包括该课程视频和该书的第二版英文,两个一起看,效果更佳:

链接: https://pan.baidu.com/s/1kUCrV8r 密码: jghn 。

对于一直寻找如何入门自然语言处理的同学来说,先把这本书和这套课程拿下来才是一个必要条件,万事先有个基础。

同时欢迎大家关注我们的公众号:NLPJob,回复"slp"获取该书和课程最新资源。

本条目发布于2017年07月24号。属于自然语言处理分类,被贴了 Dan Jurafsky、James H. Martin、NLP书籍、NLP入门、NLP课程、Speech and Language Processing、斯坦福大学,科罗拉多大学、深度学习、自然语言处理、自然语言处理书籍、自然语言处理入门、自然语言处理综论、自然语言处理课程 标签。作者是52nlp。

这里推荐一批学习自然语言处理相关的书籍,当然,不止是自然语言处理,国内的书籍相对比较便宜,值得购买。

1、《自然语言处理综论》,当年的入门书,不过翻译的是第一版,英文名《Speech and Language Processing>, 第三版据说很快就要出版(2016年),有条件的同学建议直接看英文版第二版。

2、《统计自然语言处理基础》,另一本入门书籍,这本书的英文版貌似没有更新,但是中文版貌似也不再发售了,当然,优先推荐读英文版。

3、《Python自然语言处理》,NLTK配套丛书,有了上面两本书的介绍,再加上一些Python基础,通过这本书进行相关的文本挖掘实战,很不错的一个路径。

4、宗成庆老师的《统计自然语言处理(第2版)》,当年读书的时候大致看过第一版,作为入门书籍不错。

5、国内青年学者刘知远老师等合著的《互联网时代的机器学习和自然语言处理技术大数据智能》,没有仔细看过,仅供参考。

6、南大周志华老师的西瓜书《机器学习》,最近出版的书籍,国内难得学习机器学习的高质量书籍,评价非常高,强烈推荐。

7、CMU机器学习系主任Tom Mitchell院士的 《机器学习》,机器学习老牌经典书籍,历久弥新。

华章引进的英文版也不贵,不过貌似没货:《机器学习(英文版》

8、比较新的一本机器学习书籍,被誉为内容全面的机器学习教程 Machine Learning期刊主编力作:《机器学习》

9、李航老师的这本《统计学习基础》挺不错的,简洁明了:《统计学习基础》

10、王斌老师翻译的《大数据 互联网大规模数据挖掘与分布式处理(第2版)》,质量挺不错的,对应的英文书籍是《Mining of Massive Datasets》,有相应的官方主页,提供相应的英文PDF,课程和课件资源。

————————————————————————————
自然语言处理中的若干问题(http://blog.csdn.net/yueyedeai/article/details/14524151)

一、语言模型

(一)N元语言模型

(二)语言模型性能评价

(三)数据平滑

(四)语言模型自适应方法

二、汉语自动分词和词性标注

(一)基本分词方法

(二)未登陆词处理方法

(三)基于多特征的命名实体模型

(四)词性标注

(五)词性标注的一致性检查和自动校对

三、句法分析

(一)统计句法分析以及句法分析的检查

(二)层次化汉语长句结构分析

(三)浅层句法分析

(四)依据句法理论与依存句法分析

四、语义消歧

(一)有监督的语义消歧

(二)基于词典的语义消歧

(三)无监督的语义消歧

(四)语义消歧系统评测

五、文本分类

(一)文本表示

(二)文本 特征选择方法

(三)特征权重计算方法

(四)分类器设计

(五)文本分类器性能评估方法

六、自动文摘和信息抽取

(一)多文档摘要

(二)单文档摘要

(三)信息抽取

七、文档聚类

(一)聚类算法

(二)聚类结果评估

八、自然语言处理的主要范畴

1.文本朗读(Text to speech)/语音合成(Speech synthesis)

2.语音识别(Speech recognition)

3.中文自动分词(Chinese word segmentation)

4.词性标注(Part-of-speech tagging)

5.句法分析(Parsing)

6.自然语言生成(Natural language generation)

7.文本分类(Text categorization)

8.信息检索(Information retrieval)

9.信息抽取(Information extraction)

10.文字校对(Text-proofing)

11.问答系统(Question answering)

12.机器翻译(Machine translation)

13.自动摘要(Automatic summarization)

14.文字蕴涵(Textual entailment)

九、自然语言处理研究的难点

1. 单词的边界界定

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

2.词义的消歧

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

3.句法的模糊性

自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。

4.有瑕疵的或不规范的输入

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。

5.语言行为与计划

句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说 回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要 比回答“没人没通过”好。

如何学习自然语言处理:一本书和一门课相关推荐

  1. 【视频课】如何掌握好深度学习之视频分类与行为识别?这一门课足矣!

    前言 欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下: 第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用. 第2层 ...

  2. 推荐:学习自然语言处理(NLP)的学习方法和资料合集

    本文作者:乐雨泉,优秀的nlp学习者,在各类技术论坛和网站署名yuquanle,这篇文章是他作为一名自然语言初学者,在nlp里摸爬滚打了许久的一些心得. 学习nlp方法大致可以分为二种. 第一种,在实 ...

  3. 【ChatGPT4】王老师零基础《NLP》(自然语言处理)第三课

    龙傲天出现,数值化学习能力 因为学习是枯燥的,那么接下来,我跟最强AI王老师提出了更加有趣的学习方面设定. (1)------------------------------------------- ...

  4. 机器学习/深度学习/自然语言处理学习路线

    原文地址:http://www.cnblogs.com/cyruszhu/p/5496913.html 未经允许,请勿用于商业用途!相关请求,请联系作者:yunruizhu@126.com转载请附上原 ...

  5. python有一门课不及格的学生_有一门课不及格的学生(c++)

    [问题描述] 给出一名学生的语文和数学的成绩,判断他是否恰好有一门课不及格(成绩小于60分).若该生恰好有一门课不及格,输出1:否则输出0. 输入: 一行,包含两个在0到100之间的整数,分别是该生的 ...

  6. 深入学习自然语言:NLP、NLG不可分开战斗!

    有人说来自语言的数据是"非结构化数据",事实证明这是一个错误的说法.如果没有特定的语言结构,人们可能无法用语音或者书面语言进行正确交流.语法是语言的结构,它有助于定义语言的含义.大 ...

  7. 五个入门深度学习自然语言处理资源

    From Richard Socher's slides 这里收集了五个入门深度学习自然语言处理资源,这些资源为你介绍了目前一些最新的技术.它也为你提供了一些下一步自然语言发展的方向. 1.Deep ...

  8. Matlab 遗传算法解决智能排课算法 一天四节课,上午两节,下午两节,同一门课不能相邻,特殊课程不能相邻(语文和英语,数学和科学),求可行方案?

    1.要排课的课程有9门,分别给与编码1,2,3,4,5,6,7,8,9.对应的一周上课次数如下所示: 课程名 编码 一周上几次 Chinese 1 3 English 2 3 Math 3 3 Sci ...

  9. 做课黄金4要素,手把手教你做出第一门课

    做课黄金4要素,手把手教你做出第一门课 人生中的第一门课,应该怎么做才能让学员刷刷刷刷买呢?我一个情绪心理学的学员,第一次做课就卖了十门,赚了几百元,总结了四个要素,如果你学过了,第一门课也能卖爆,轻 ...

最新文章

  1. 前沿技术探秘:知识图谱构建流程及方法
  2. 500万张图片,20万处地标风景,谷歌又放出大型数据集
  3. WebStorm 2017.1增加对Vue.js的支持
  4. VScode PowerShell运行脚本报错禁止运行脚本解决方式图文
  5. 变量在内存中的值[c][code]
  6. java更好的语言_Java,如果这是一个更好的世界
  7. [Android]Eclipse连不上模拟器的问题[emulator-5554 disconnected]
  8. python模拟登录12306_python基于selenium模块实现自动登录12306网站
  9. linux分区整数计算器,整数G分区计算工具
  10. 代码检查、评审、单元测试工具 大搜集
  11. 小米路由器R1C或R1CM小米R1C 原厂Bootloader和epproom
  12. 微信小程序上线,后台接口失效问题
  13. 做软件测试学编程的十大误区
  14. 超级简单基于spring boot高速公路收费系统的设计与实现.rar(含源码及数据库文件)
  15. 利用 IP 扩展访问列表实现应用服务的访问限制
  16. 有哪些产品适合做引流?什么样的产品才适合做引流款
  17. 翻译go项目代码英文注释
  18. NCBI genebank refseq 编号意义
  19. 交通流分析2:《基于公共交通大数据的上海市居民出行时空特征研究_王宇》和《面向交通拥堵预测大数据的神经网络群组快速学习_沈晴》阅读总结
  20. 超简单教你在树莓派上安装opencv(二)

热门文章

  1. Pytorch 的repeat函数
  2. UCOSIII的任务管理
  3. 第105篇 Compound 中的 Comptroller
  4. 短信验证码和发送短信按钮没有反应
  5. 在培训机构花了好几万学Java,当了程序员还常被鄙视,这是招谁惹谁了?
  6. 一位15年资深HR直言:裁掉35岁以上老程序员,早已是公开秘密
  7. Miniconda的安装与使用及pip在conda环境中的安装
  8. PHP5 session 详解【经典】
  9. Hadoophbase监控页面未授权访问漏洞处理方案验证过程实现
  10. 【量化交易01】CTA策略 菲阿里四价+空中花园策略