本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.10节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.10 练习

下面是一些开放性答案的问题。

请尝试用pyodbc库访问任意一个数据库。  
你能创建一个基于正则表达式的标识器,令其选取的单词只包含大小写字母、数字和金钱符号吗?

[w+]将会选取所有的单词和数字,即[A-Z A-Z0-9],而[$]则会匹配金钱符号。

词干提取和词性还原这两个操作之间的差异是什么?
词干提取操作更多时候是一套用于获取词干一般形式的规则方法。而词形还原主要考虑的是当前的上下文语境以及相关单词的POS,然后将规则应用到特定的语法变化中。通常来说,词干提取的操作实现起来较为简单,并且在处理时间上也要明显短于词形还原。

你可以为自己的母语设计一个(基于规则的)Porter词干提取器吗?
提示:http://Snowball.tartarus.org/algorithms/english/stemmer.html。

在完成停用词移除之后,我们还可以执行其他NLP操作吗?
答案是否定的,这是不可能的。所有典型的NLP应用,如词性标注、断句处理等,都需要根据上下文语境来为既定文本生成相关的标签。一旦我们移除了停用词,其上下文环境也就不存在了。

为什么在印地文、中文这样的语言中,词干提取器会变得难以实现?
因为印度语的词法很丰富,而中文则是标识化的难度很高,它们都在符号的标准化上遇到了一定的挑战,因此词干提取器实现起来要困难得多。我们会在后面的章节中详细讨论这些挑战。

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.10 练习相关推荐

  1. 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结

    本节书摘来异步社区<NLTK基础教程--用NLTK和Python库构建机器学习应用>一书中的第2章,第2.11节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区&quo ...

  2. 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器

    本节书摘来异步社区<NLTK基础教程--用NLTK和Python库构建机器学习应用>一书中的第2章,第2.3节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区" ...

  3. 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.8 罕见词移除

    本节书摘来异步社区<NLTK基础教程--用NLTK和Python库构建机器学习应用>一书中的第2章,第2.8节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区" ...

  4. NLTK01 《NLTK基础教程--用NLTK和Python库构建机器学习应用》

    01 关于NLTK的认知 很多介绍NLP的,都会提到NLTK库.还以为NLTK是多牛逼的必需品.看了之后,感觉NLTK对实际项目,作用不大.很多内容都是从语义.语法方面解决NLP问题的.感觉不太靠谱. ...

  5. python和nltk自然语言处理 pdf_NLTK基础教程:用NLTK和Python库构建机器学习应用 完整版pdf...

    本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用.全书共分为10章.第1章对NLP进行了简单介绍.第2章.第3章和第4章主要介绍一些通用的预处理技术.专属 ...

  6. python基础教程书-7本Python必读的入门书籍

    Python入门书籍不用看太多,看一本就够.重要的是你要学习Python的哪个方向,或者说你对什么方向感兴趣,因为Python这门语言的应用领域比较广泛,比如说可以用来做数据分析.机器学习,也可以用来 ...

  7. python基础教程书籍推荐-入门python有什么好的书籍推荐?

    Python编程语言有许多语法结构.标准库函数和交互式开发环境功能.好在,你可以忽略大多数内容.你只需要学习部分内容,就能编写一些方便的小程序. 但在动手之前,你必须学习一些基本编程概念.就像魔法师培 ...

  8. python基础教程书籍-7本Python必读的入门书籍

    Python入门书籍不用看太多,看一本就够.重要的是你要学习Python的哪个方向,或者说你对什么方向感兴趣,因为Python这门语言的应用领域比较广泛,比如说可以用来做数据分析.机器学习,也可以用来 ...

  9. python基础教程免费下载-《Python机器学习基础教程》高清版免费PDF下载

    Python机器学习基础教程-[德] 安德里亚斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著,张亮(hysic) 译 下载地址1:网盘下载 下载地址2:网盘 ...

  10. 零基础自学Python编程从入门到精通基础教程《从零开始学Python》

    推荐理由 本书面向零基础读者,巧用类比式描述,技术知识点轻松掌握: 基于案例进行讲解,读者可轻松理解编程思维,并在配套代码中参透Python编程的技巧. 本书囊括5项常见任务,助力快速掌握Python ...

最新文章

  1. 文件系统性能测试指标
  2. 「每周CV论文推荐」 初学深度学习人脸属性分析必读的文章
  3. 【年终总结】2019年有三AI知识星球做了什么,明年又会做什么
  4. 动态链接库、静态库区别与VS2005项目相关设置
  5. Windows UI风格的设计(9)
  6. S3C2410 bootloader ----VIVI阅读笔记 (转)下
  7. matlab 图像语义分割,笔记︱图像语义分割(FCN、CRF、MRF)、论文延伸(Pixel Objectness、)...
  8. python cv2 轮廓的包络 面积_Python + Opencv2 实现轮廓提取,轮廓区域面积计算
  9. 苹果账号:个人,公司,企业,教育,
  10. git : 上传大文件或者PDF或者二进制文件导致无法上传
  11. 9.6.1 三维数据可视化之曲面图
  12. 线性代数及其应用第一章总结
  13. Thingworx连接Kepware
  14. GhostXP SP3电脑城快速装机新年献礼版 【雪豹】
  15. java area类用法_java反射
  16. 《动态壁纸 : 手机壁纸大全》EULA条款协议
  17. 质量管理三个概念:QC、QA和QM 解析
  18. 08、SpringCloud 系列:Nacos - 安装、启动
  19. jaffe 数据库百度网盘下载
  20. 最大流 最小费用最大流模板

热门文章

  1. Get value from agent failed: cannot connect to [[192.168.186.130]:10050]: [113]No route to host
  2. BZOJ 2882 后缀数组的傻逼实现
  3. xml中处理特殊字符和转义字符
  4. 转载 《TypeScript 类型定义 DefinitelyTyped》
  5. Javascript模块化编程(二)AMD规范(规范使用模块)
  6. C++Builder2010创建线程
  7. 使用Xcode Instruments Leak解决内存泄漏问题
  8. Ample Sound Ample Bass Metal Ray5 for mac - 低弦音软件
  9. 在MacOS Big Sur中使用Safari 翻译功能的方法
  10. Mac 升级到 10.15 cocoapods使用不了