《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.3节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。
2.3 语句分离器
在某些NLP应用中,我们常常需要将一大段原生文本分割成一系列的语句,以便从中获取更多有意义的信息。直观地说,就是让语句成为一个可用的交流单元。当然,要想在计算机上实现这个任务可比它看上去要困难得多了。典型的语句分离器既可能是(.)[1]这样简单的字符串分割符,也有可能是某种预置分类器这样复杂的语句边界标识:
>>>inputstring = ' This is an example sent. The sentence splitter will split
on sent markers. Ohh really !!'
>>>from nltk.tokenize import sent_tokenize
>>>all_sent = sent_tokenize(inputstring)
>>>print all_sent
[' This is an example sent', 'The sentence splitter will split on markers.','Ohh really !!']
在这里,我们正试着将原生文本字符串分割到一个语句列表中。用的是预处理函数sent_tokenize(),这是一个内置在NLTK库中的语句边界检测算法。当然,如果我们在应用中需要自定义一个语句分离器的话,也可以用以下方式来训练出属于自己的语句分离器:
>>>import nltk.tokenize.punkt
>>>tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()
该预置语句分离器可以支持17种语言。我们只需要为其指定相关的配方对象即可。根据我的经验,这里只要提供一个相关种类的文本语料就已经足够了,而且实际上也很少有机会需要我们自己来构建这些内容。
《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器相关推荐
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结
本节书摘来异步社区<NLTK基础教程--用NLTK和Python库构建机器学习应用>一书中的第2章,第2.11节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区&quo ...
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.8 罕见词移除
本节书摘来异步社区<NLTK基础教程--用NLTK和Python库构建机器学习应用>一书中的第2章,第2.8节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区" ...
- NLTK01 《NLTK基础教程--用NLTK和Python库构建机器学习应用》
01 关于NLTK的认知 很多介绍NLP的,都会提到NLTK库.还以为NLTK是多牛逼的必需品.看了之后,感觉NLTK对实际项目,作用不大.很多内容都是从语义.语法方面解决NLP问题的.感觉不太靠谱. ...
- python和nltk自然语言处理 pdf_NLTK基础教程:用NLTK和Python库构建机器学习应用 完整版pdf...
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用.全书共分为10章.第1章对NLP进行了简单介绍.第2章.第3章和第4章主要介绍一些通用的预处理技术.专属 ...
- python基础教程书-7本Python必读的入门书籍
Python入门书籍不用看太多,看一本就够.重要的是你要学习Python的哪个方向,或者说你对什么方向感兴趣,因为Python这门语言的应用领域比较广泛,比如说可以用来做数据分析.机器学习,也可以用来 ...
- python基础教程书籍推荐-入门python有什么好的书籍推荐?
Python编程语言有许多语法结构.标准库函数和交互式开发环境功能.好在,你可以忽略大多数内容.你只需要学习部分内容,就能编写一些方便的小程序. 但在动手之前,你必须学习一些基本编程概念.就像魔法师培 ...
- python基础教程书籍-7本Python必读的入门书籍
Python入门书籍不用看太多,看一本就够.重要的是你要学习Python的哪个方向,或者说你对什么方向感兴趣,因为Python这门语言的应用领域比较广泛,比如说可以用来做数据分析.机器学习,也可以用来 ...
- python基础教程免费下载-《Python机器学习基础教程》高清版免费PDF下载
Python机器学习基础教程-[德] 安德里亚斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著,张亮(hysic) 译 下载地址1:网盘下载 下载地址2:网盘 ...
- 零基础自学Python编程从入门到精通基础教程《从零开始学Python》
推荐理由 本书面向零基础读者,巧用类比式描述,技术知识点轻松掌握: 基于案例进行讲解,读者可轻松理解编程思维,并在配套代码中参透Python编程的技巧. 本书囊括5项常见任务,助力快速掌握Python ...
最新文章
- mysql日期加减计算
- 揭秘TensorFlow:Google开源到底开的是什么?
- Ubuntu DNS bind9 配置
- Azure 物联网开发者体验 7 月更新:边缘计算开发工具,ARM64 设备开发,VS Code 容器化开发工具...
- 不会几个框架,都不好意思说搞过前端: Vue.js - 60分钟快速入门
- SQLServer日期格式化
- LINUX下定时备份MYSQL数据库SHELL脚本
- java day42【综合练习】
- UVa 674 Coin Change(完全背包)
- java的reader_Java Reader类
- SAP 常用的库存表
- 黑马——C语言的一些基础(2)
- ClassNames
- 科创板公司数据信息爬取
- signaturenonce php,php微信公众平台开发--接入微信API
- 饥荒计算机丢失xinput1 3.dll,【已解决】“由于找不到xinput1_3.dll,无法继续执行代码”...
- 高通骁龙处理器排行榜2022 高通骁龙处理器排名 骁龙处理器哪个好?
- 换脸系统php,【AI换脸】Faceswap源代码换脸软件安装指南(转)
- 网络编程 TCP电子网络词库
- 【附源码】计算机毕业设计SSM宿舍人员签到管理系统