自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。

本书是学习自然语言处理的一本综合学习指南,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析和NLP系统评估等主题。

本书适合熟悉Python语言并对自然语言处理开发有一定了解和兴趣的读者阅读参考。

第1章字符串操作1

1.1切分1

1.1.1将文本切分为语句2

1.1.2其他语言文本的切分2

1.1.3将句子切分为单词3

1.1.4使用TreebankWordTokenizer执行切分4

1.1.5使用正则表达式实现切分5

1.2标准化8

1.2.1消除标点符号8

1.2.2文本的大小写转换9

1.2.3处理停止词9

1.2.4计算英语中的停止词10

1.3替换和校正标识符11

1.3.1使用正则表达式替换单词11

1.3.2用另一个文本替换文本的示例12

1.3.3在执行切分前先执行替换操作12

1.3.4处理重复字符13

1.3.5去除重复字符的示例13

1.3.6用单词的同义词替换14

1.3.7用单词的同义词替换的示例15

1.4在文本上应用Zipf定律15

1.5相似性度量16

1.5.1使用编辑距离算法执行相似性度量16

1.5.2使用Jaccard系数执行相似性度量18

1.5.3使用Smith Waterman距离算法执行相似性度量19

1.5.4其他字符串相似性度量19

1.6小结20

第2章统计语言建模21

2.1理解单词频率21

2.1.1为给定的文本开发MLE25

2.1.2隐马尔科夫模型估计32

2.2在MLE模型上应用平滑34

2.2.1加法平滑34

2.2.2Good Turing平滑35

2.2.3Kneser Ney平滑40

2.2.4Witten Bell平滑41

2.3为MLE开发一个回退机制41

2.4应用数据的插值以便获取混合搭配42

2.5通过复杂度来评估语言模型42

2.6在语言建模中应用Metropolis—Hastings算法43

2.7在语言处理中应用Gibbs采样法43

2.8小结46

第3章形态学:在实践中学习47

3.1形态学简介47

3.2理解词干提取器48

3.3理解词形还原51

3.4为非英文语言开发词干提取器52

3.5形态分析器54

3.6形态生成器56

3.7搜索引擎56

3.8小结61

第4章词性标注:单词识别62

4.1词性标注简介62

默认标注67

4.2创建词性标注语料库68

4.3选择一种机器学习算法70

4.4涉及n—gram的统计建模72

4.5使用词性标注语料库开发分块器78

4.6小结80

第5章语法解析:分析训练资料81

5.1语法解析简介81

5.2Treebank建设82

5.3从Treebank提取上下文无关文法规则87

5.4从CFG创建概率上下文无关文法93

5.5CYK线图解析算法94

5.6Earley线图解析算法96

5.7小结102

第6章语义分析:意义很重要103

6.1语义分析简介103

6.1.1NER简介107

6.1.2使用隐马尔科夫模型的NER系统111

6.1.3使用机器学习工具包训练NER117

6.1.4使用词性标注执行NER117

6.2使用Wordnet生成同义词集id119

6.3使用Wordnet进行词义消歧122

6.4小结127

第7章情感分析:我很快乐128

7.1情感分析简介128

7.1.1使用NER执行情感分析134

7.1.2使用机器学习执行情感分析134

7.1.3NER系统的评估141

7.2小结159

第8章信息检索:访问信息160

8.1信息检索简介160

8.1.1停止词删除161

8.1.2使用向量空间模型进行信息检索163

8.2向量空间评分及查询操作符关联170

8.3使用隐性语义索引开发IR系统173

8.4文本摘要174

8.5问答系统176

8.6小结177

第9章语篇分析:理解才是可信的178

9.1语篇分析简介178

9.1.1使用中心理论执行语篇分析183

9.1.2指代消解184

9.2小结188

第10章NLP系统评估:性能分析189

10.1NLP系统评估要点189

10.1.1NLP工具的评估(词性标注器、词干提取器及形态分析器)190

10.1.2使用黄金数据执行解析器评估200

10.2IR系统的评估201

10.3错误识别指标202

10.4基于词汇搭配的指标202

10.5基于句法匹配的指标207

10.6使用浅层语义匹配的指标207

10.7小结208

精通javapython拼写_异步图书 精通Python自然语言处理 高清文字版PDF下载相关推荐

  1. 可爱的Python(哲思社区.插图版_文字版).pdf 下载地址

    下载地址: 可爱的Python(哲思社区.插图版_文字版).pdf 资源来自网络,如有侵权,请联系删除!

  2. python中文版免费下载-PYTHON自然语言处理(中文最新完整版)pdf下载

    内容简介 自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向.它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方 ...

  3. 基于python的语料库数据处理电子版_[异步图书].精通Python自然语言处理[PDF][16.04MB]...

    内容简介 自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一. 本书是学习自然语言处理的一本综合学习指南,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目. ...

  4. python网络爬虫权威指南(第2版)pdf_用Python写网络爬虫(第2版) PDF 下载

    资料目录: 第 1章 网络爬虫简介 1 1.1 网络爬虫何时有用 1 1.2 网络爬虫是否合法 2 1.3 Python 3 3 1.4 背景调研 4 1.4.1 检查robots.txt 4 1.4 ...

  5. python开发技术详解pdf下载_python开发技术详解附源码-python开发技术详解电子书pdf下载高清去水印版-精品下载...

    Python开发技术详解适合Python爱好者.大中专院校的学生.社会培训班的学生以及用Python语言进行系统管理.GUI开发.Web开发.数据库编程.网络编程的人员使用. 内容提要 Python是 ...

  6. python做的游戏放到微信_【1、 创建一个python的文件,运行后,文字版方式模拟微信游戏“跳一跳?】...

    python脚本学习过程推荐 学习流程: 一:打础 1.找到合适的书籍(推荐Python核心编程2Dive into Python),大致读一次,循环啊判,常用类啊,搞懂(太难的跳过) 2.勤练习py ...

  7. python爬虫练习高清壁纸【王者荣耀高清壁纸】python爬虫

    python爬虫练习高清壁纸[王者荣耀高清壁纸] 仅做练习使用,各位小伙伴不用乱来!!! 现成的代码,直接拿走研究,已经精简了自行美化 页面自己去分析分析 ,学习效果更佳. import reques ...

  8. python神经网络编程pdf百度云下载-Python神经网络编程高清版.pdf

    Python神经网络编程高清版.pdf 所属分类:人工智能/神经网络/深度学习 开发工具:Python 文件大小:9787KB 下载次数:2 上传日期:2020-06-26 11:49:20 上 传 ...

  9. 基于arcgis的python编程秘笈第2版_基于ArcGIS的Python编程秘笈(第2版)

    基于ArcGIS的Python编程秘笈(第2版) 译者简介 审阅人简介 1 面向ArcGIS的Python语言基础 1.1 使用IDLE进行Python脚本开发 1.1.1 Python Shell窗 ...

最新文章

  1. [sharepoint]根据用户名获取该用户的权限
  2. mysql与redis面试题
  3. POJ 2301 Beat the Spread!
  4. android删除文件夹代码,Android_Android递归方式删除某文件夹下的所有文件(.mp3文件等等),1.由于需要删除文件,因此需 - phpStudy...
  5. 推荐几款热门的敏捷开发工具
  6. Ubuntu下实现eth0与wlan0完美桥接
  7. webserver 交互方式说明
  8. 这件装备让你排位上分有如神助,vivo X20王者荣耀限量版图评
  9. python简单程序实例-python简单实例训练(21~30)
  10. 使用虚拟机搭建ClouderaManager平台,并自动部署一个hadoop集群(CDH)
  11. node.js读取JSON文件
  12. Django 优秀资源大全
  13. 计算二叉树叶子结点数目
  14. python窗口找图_python查找图片在原始图片上的坐标点
  15. FATAL :210330:1710: 3.0 SOLVE/read_biases: Zero WL biases read from N-file
  16. nginx配置Strict Transport Security
  17. 如何打开CMD界面呢?打开CMD界面有四种方式。
  18. Breast Cancer Wisconsin (Diagnostic) Data Set
  19. CAD等高线转地形高程散点
  20. 流媒体协议(一):HLS 协议

热门文章

  1. tensorflow中slim详解
  2. matlab解决奥数题,初中奥数简单计数问题练习题|初一奥数题100道及答案
  3. 普华服务器操作系统v4.0,普化操作系统4.0特性_服务器准系统_服务器开发应用-中关村在线...
  4. css动画----loading加载动画
  5. UGUI -TextMeshPro(TMP) 多材质
  6. 开源数据库管理系统DBeaver
  7. 同时显示世界各地时间的会走动的时钟
  8. C++类的多继承和虚基类
  9. Java基础入门 JFrame
  10. 台服大航海OL竟然要合服?!看来要稍微应付一下了……