代码来自《Python自然语言处理》P116

(python2.7) appleyuchi@ubuntu:~/.virtualenvs/python2.7/bin$ python
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> raw="""DENNIS:Listen,strange women lying in ponds distributing swords is... is no basis for a system of goverment. Supreme executive power derives from... a mandate from the masses, not from some farcical aquatic ceremony."""
>>> import nltk
>>> tokens=nltk.word_tokenize(raw)
>>> porter = nltk.PorterStemmer()
>>> lancaster=nltk.LancasterStemmer()
>>> [porter.stem(t) for t  in tokens]
[u'denni', ':', 'listen', ',', u'strang', 'women', u'lie', 'in', u'pond', u'distribut', u'sword', 'is', '...', 'is', 'no', u'basi', 'for', 'a', 'system', 'of', u'gover', '.', u'suprem', u'execut', 'power', u'deriv', 'from', '...', 'a', u'mandat', 'from', 'the', u'mass', ',', 'not', 'from', 'some', u'farcic', u'aquat', u'ceremoni', '.']
>>> [lancaster.stem(t) for t in tokens]
['den', ':', 'list', ',', 'strange', 'wom', 'lying', 'in', 'pond', 'distribut', 'sword', 'is', '...', 'is', 'no', 'bas', 'for', 'a', 'system', 'of', 'gov', '.', 'suprem', 'execut', 'pow', 'der', 'from', '...', 'a', 'mand', 'from', 'the', 'mass', ',', 'not', 'from', 'som', 'farc', 'aqu', 'ceremony', '.']

上述代码中,raw是原始余料,最后几行是词干提取结果。

以上代码总共使用了两种词干提取器,分别是Porter和Lancaster

NLTK自带的词干提取器相关推荐

  1. python自带的url提取器

  2. NLTK(3)处理文本、分词、词干提取与词形还原

    文章目录 访问文本 @字符串处理 @编码 @正则表达式 分词 @正则表达式分词(不好) Tokenize命令 @自定义函数 规范化文本 将文本转换为小写 查找词干 @自定义函数(不好) NLTK词干提 ...

  3. 词形变换和词干提取工具(英文)

    转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html 词形变换和词干提取工具(英文) 在信息检索和文本挖掘中,需要对一个词的不同形态进行归 ...

  4. 自然语言处理——词性标注、词干提取、词形还原

    目录 词性标注 方法 工具 实例 词干提取和词形还原 算法 步骤 词性标注 一般而言,文本里的动词可能比较重要,而助词可能不太重要: 我今天真好看 我今天真好看啊 甚至有时候同一个词有着不同的意思: ...

  5. java lucene词干提取_词形变换和词干提取工具(英文)

    在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率.例如:词根run有不同的形式running.ran另外runner也和run有关.这里涉及到两个概念: 词 ...

  6. JMeter 将上一个请求的结果作为下一个请求的参数——使用正则提取器(转载)...

    在接口测试和压力测试过程中,经常会将几个流程串联起来才能测试.如:我要进行获取用户信息接口测试,我就要先登录成功后,才能获取用户信息.所以,我就要首先要登录,获得我的登录凭证(tokenId或tick ...

  7. Scrapy-Link Extractors(链接提取器)

    Link Extractors 中文文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/link-extractors.html Link Ex ...

  8. Python带参数的装饰器

    在装饰器函数里传入参数 # -*- coding: utf-8 -*- # 2017/12/2 21:38 # 这不是什么黑魔法,你只需要让包装器传递参数: def a_decorator_passi ...

  9. php gif 切成一帧,GIF动画帧提取器 如何截取gif的每一帧图片

    网上不乏有意思的GIF动画内容,但想直接提取GIF中的单帧图片又保留其画质的并非易事.如果用截图功能吧,很可能因为时机不对而捕抓失败,很费时,而想提取全部的帧画面就更难了.给大家分享一个体积超小的GI ...

最新文章

  1. 数组、字符串对象、Math对象
  2. WIKI 开发工具网站收藏
  3. php 系统日志,PHP中把错误日志保存在系统日志中(Windows系统)
  4. How is a Batch request handled in the backend
  5. IOS简单的登陆界面
  6. linux单线程处理多个请求,redis是单线程的,如何处理并发请求?
  7. 多项式对数函数ln f(x)
  8. 设置 Linux 的 LD_LIBRARY_PATH 变量
  9. linux centos/redhat mysql8.0安装(汇总贴)
  10. mysql存储过程删除_MySQL 存储过程删除大表
  11. python电脑下载安装-python
  12. 阶段5 3.微服务项目【学成在线】_day05 消息中间件RabbitMQ_5.RabbitMQ研究-入门程序-生产者...
  13. html文件如何合并成txt文件,如何快速合并多个 TXT 文档?TXT 文本文档合并方法...
  14. OpenCV识别指定颜色(黑、灰、白、红、橙、黄、绿、青、蓝、紫)
  15. [云开发3]-将问卷调查Demo应用快速部署到SAP云平台
  16. 示波器的使用以及基本原理
  17. 原创短视频推广方式有哪些
  18. 专防诈骗 法国新型信用卡密码随时变
  19. 标准电路——蜂鸣器Beep
  20. 预解释是一种毫无节操的机制

热门文章

  1. [转载] 中国好声音120720
  2. arcgis9.2的安装方法
  3. DVWA--File Inclusion(文件包含)--四个级别
  4. iview 表单提交之前验证是否符合条件
  5. jQuery 的常用选择器,筛选器
  6. Normalize.css :一种用于重置默认的CSS样式的样式工具
  7. Some Essential JavaScript Questions And Answers(1)
  8. 三维重建:QT+OpenNI+Kinect图像校正
  9. “局部图像特征描述概述”--樊彬老师
  10. AHOI2005航线规划 bzoj1969(LCT缩点)