本文翻译自:  http://text-processing.com/demo/tokenize/

Tokenization 是把文本分割成tokens的方式。tokens可以是段落,句子,或者单独的单词。

NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。

这个分割器我多啰嗦几句,如果用英文表示的话,其实tokenizer可以是很多个意思,但是这个词不能翻译,一翻译这个词就完蛋了,就会丢失它原本具有的很多意思。你说它翻译成分词器,但是它也可以是分句器,分段器,所以干脆翻译成分割器得了。或者理解成刀,刀片,切割器也行。


单词分割器--分词器

句子分割器--分句器

段落分割器--分段器

章节分割器--分节器

以上都是叫 tokenizer,但是用中文表述的时候,可以有选择的表述,因此,后文不管是什么分X器,都是tokenizer。

下面列出其中的5个。

文本首先使用 PunktSentenceTokenizer 分割成句子。
然后使用下面4中不同的单词分割器将句子分割为单词。

TreebankWordTokenizer
WordPunctTokenizer
PunctWordTokenizer
WhitespaceTokenizer

示例:

In Düsseldorf I took my hat off. But I can't put it back on.

分词结果

TreebankWordTokenizer (宾夕法尼亚州立大学 Treebank单词分割器)

In/ Düsseldorf/ I took/ my/ hat/ off/ ./
But/ I/ ca/ n't/ put/ it/ back/ on/ ./

WordPunctTokenizer(单词标点分割,can‘t 分割为can和’和t)

In/ Düsseldorf/ I/ took/ my/ hat/ off/ ./
But/ I/ can/ '/ t/ put/ it/ back/ on/ ./ 

PunktWordTokenizer(标点单词分割,这个can't 分割为can和’t)

In/ Düsseldorf/ I/ took/ my/ hat/ off./
But/ I/ can/ 't/ put/ it/ back/ on./ 

WhitespaceTokenizer(空格符号分割,就是split(' ') 最简单的一个分词器。)

In/ Düsseldorf/ I/ took/ my/ hat/ off./
But/ I/ can't/ put/ it/ back/ on./ 

上面的初始例子提供了2个句子来演示每个分词器的分词结果,从而可以显示出这4个分词器各自是如何处理non-ascii 字符和简单的带标点符号的单词缩写。

NLTK文本分割器是如何工作的相关推荐

  1. java中字符串分割器_java简易文本分割器实现代码

    本文实例为大家分享了java文本分割器的具体代码,供大家参考,具体内容如下 import java.io.*; class cutintopieces{ public static void main ...

  2. TXT批量文本分割器Python

    一.软件功能 1.自动识别当前文件夹下的TXT文件并且分割拆分成100M一个文件(需要分割其他大小和格式 稍微修改下代码即可) 2.不会出现分割后乱码或其他编码问题 3.可单独处理一个大文件也可以批量 ...

  3. 【转】视频分割器的工作原理及异常解决

    在有多个视频源组成的视频系统中,通常采用视频切换器使多路图像在一台显示设备上轮流显示.但有时为了让监控人员能同时看到所有监控点的情况,往往采用多视频分割器使得多路图像同时显示在一台显示设备上.当采用几 ...

  4. 朗强:HDMI视频画面分割器基本工作原理和性能

    在有多个摄像机组成的电视监控系统中,通常采用视频切换器使多路图像在一台监视器上轮流显示.但有时为了让监控人员能同时看到所有监控点的情况,往往采用多画面分割器使得多路图像同时显示在一台监视器上.当采用几 ...

  5. [开源]基于WPF实现的Gif图片分割器,提取GIf图片中的每一帧

    [开源]基于WPF实现的Gif图片分割器,提取GIf图片中的每一帧 原文:[开源]基于WPF实现的Gif图片分割器,提取GIf图片中的每一帧 不知不觉又半个月没有更新博客了,今天终于抽出点时间,来分享 ...

  6. 知道路程时间求加速度_凸轮分割器的出力轴加速度是怎么算的

    凸轮分割器的出力轴,也就是箱体内部的出力转塔是在入力轴的弧面凸轮肋的作用下进行的,要计算出力轴的加速度,就要先考虑驱动出力轴产生加速度的入力轴及相关的影响因素. 分割器凸轮进口原材料 我们知道,无论是 ...

  7. java 文件分割器_Java分割器

    java 文件分割器 Java Spliterator is one of the four iterators – Enumeration, Iterator, ListIterator and S ...

  8. 开博记念及附上第一个android工程:Txt文本阅读器

    开博记念 因工作需要学习安卓,对于安卓又完全是从零开始,故在这里记下学习总结,以记录学习工作中遇到的问题和解决办法.  由于有C++和C#基础,博主先是花了三天时间过了下JAVA的基本语法,然后就开始 ...

  9. 章节分割器 v2.0 Beta0618 版

    下载:点击此处下载 章节分割器 v2.0 Beta0618 ===================================== 一个把文本小说按照自定义条件切割成章节的软件,没有多么复杂的设置 ...

  10. 如何区别画面分割器、视频矩阵和延长器

    你知道画面分割器.视频矩阵和延长器各自的作用都是什么吗?今天朗强科技就为大家详细介绍下它们各自的区别. 画面分割器 画面分割器,又称监控用画面分割器,有4分割.9分割.16分割等种类,可以在一台监视器 ...

最新文章

  1. IT公司老板落水,各部门员工会怎么救?老板:我还是乖乖学游泳吧~
  2. Android内存泄漏就这样产生了
  3. python是不是特别垃圾-Python 这语言真是混乱和原始
  4. shell -eom_EOM的完整形式是什么?
  5. 停用zabbix 自动发现的一些规则
  6. 蓝桥方格分割(搜索)
  7. Simulink与Flightgear联合仿真详细教程
  8. Java编译器和Java解释器---即时编译器和JAVA解释器
  9. 科三十六项操作方法指导
  10. Android NDK——实战演练之使用Android Studio引用so库,jar包、module,aar以及导入Eclipse项目并使用JNI的正确姿势(一)
  11. 【CF335E】 Counting Skyscrapers(期望)
  12. 研究人类知识的计算机表示,人工智能中的知识表示及应用特点
  13. sql优化和索引常见的面试题(面试总结)
  14. matlab中实现文字和数字和混输出excel
  15. Word实现大写字母和小写字母批量的转换
  16. 即时通讯云服务·融云开发者沙龙活动(10月份)公告
  17. Linux-chpasswd 修改用户密码
  18. pycharm 快捷键修改
  19. Android webview 自动登陆新浪微博实现(原理)
  20. PLDA宣布在其XpressLINK™系列CXL控制器IP中支持CXL™ 2.0

热门文章

  1. mysql如何创建模式_sql - MySQL'创建模式'和'创建数据库' - 有什么区别
  2. Bzoj2959: 长跑
  3. github的健步如飞
  4. puml绘制思维导图_盘点那些美美哒的在线思维导图制作神器
  5. 程序员整体架构之基础架构
  6. 爱企查与天眼查也来啦~
  7. mysql 词频分析_09 使用python完成词频统计
  8. win10计算机磁盘图标,Win10系统硬盘图标怎么更换?Win10系统自定义硬盘图标的方法...
  9. python爬虫-京东商品详情爬取
  10. 小学生数学测试软件论文,测试数学论文,关于小学生数学基本能力测试量表的贵族常模制订相关参考文献资料-免费论文范文...