接上

[搜索]波特词干(Porter Streamming)提取算法详解(2)

下面分为5大步骤来使用前面提到的替换条件来进行词干提取。

左边是规则,右边是提取成功或者失败的例子(用小写字母表示)。

步骤1

SSES -> SS                   caresses  ->  caress
IES  -> I                          ponies    ->  poni
                                       ties      ->  ti

SS   -> SS                      caress    ->  caress
S    ->                            cats      ->  cat

(m>0) EED -> EE           feed      ->  feed
                                       agreed    ->  agree

(*v*) ED  ->                    plastered ->  plaster
                                       bled      ->  bled
 (*v*) ING ->                   motoring  ->  motor
                                       sing      ->  sing

AT -> ATE                       conflat(ed)  ->  conflate

BL -> BLE                       troubl(ed)   ->  trouble
IZ -> IZE                       siz(ed)      ->  size
    (*d and not (*L or *S or *Z))
       -> single letter
                                    hopp(ing)    ->  hop
                                    tann(ed)     ->  tan
                                    fall(ing)    ->  fall
                                    hiss(ing)    ->  hiss
                                    fizz(ed)     ->  fizz
(m=1 and *o) -> E       fail(ing)    ->  fail
                                    fil(ing)     ->  file

(*v*) Y -> I                    happy        ->  happi
                                    sky          ->  sky
通过步骤1的处理,复数和过去分词就被处理了。

步骤2

(m>0) ATIONAL ->  ATE           relational     ->  relate
    (m>0) TIONAL  ->  TION          conditional    ->  condition
                                    rational       ->  rational
    (m>0) ENCI    ->  ENCE          valenci        ->  valence
    (m>0) ANCI    ->  ANCE          hesitanci      ->  hesitance
    (m>0) IZER    ->  IZE           digitizer      ->  digitize
    (m>0) ABLI    ->  ABLE          conformabli    ->  conformable
    (m>0) ALLI    ->  AL            radicalli      ->  radical
    (m>0) ENTLI   ->  ENT           differentli    ->  different
    (m>0) ELI     ->  E             vileli        - >  vile
    (m>0) OUSLI   ->  OUS           analogousli    ->  analogous
    (m>0) IZATION ->  IZE           vietnamization ->  vietnamize
    (m>0) ATION   ->  ATE           predication    ->  predicate
    (m>0) ATOR    ->  ATE           operator       ->  operate
    (m>0) ALISM   ->  AL            feudalism      ->  feudal
    (m>0) IVENESS ->  IVE           decisiveness   ->  decisive
    (m>0) FULNESS ->  FUL           hopefulness    ->  hopeful
    (m>0) OUSNESS ->  OUS           callousness    ->  callous
    (m>0) ALITI   ->  AL            formaliti      ->  formal
    (m>0) IVITI   ->  IVE           sensitiviti    ->  sensitive
    (m>0) BILITI  ->  BLE           sensibiliti    ->  sensible
步骤3

(m>0) ICATE ->  IC              triplicate     ->  triplic
    (m>0) ATIVE ->                  formative      ->  form
    (m>0) ALIZE ->  AL              formalize      ->  formal
    (m>0) ICITI ->  IC              electriciti    ->  electric
    (m>0) ICAL  ->  IC              electrical     ->  electric
    (m>0) FUL   ->                  hopeful        ->  hope
    (m>0) NESS  ->                  goodness       ->  good

步骤4

(m>1) AL    ->                  revival        ->  reviv
    (m>1) ANCE  ->                  allowance      ->  allow
    (m>1) ENCE  ->                  inference      ->  infer
    (m>1) ER    ->                  airliner       ->  airlin
    (m>1) IC    ->                  gyroscopic     ->  gyroscop
    (m>1) ABLE  ->                  adjustable     ->  adjust
    (m>1) IBLE  ->                  defensible     ->  defens
    (m>1) ANT   ->                  irritant       ->  irrit
    (m>1) EMENT ->                  replacement    ->  replac
    (m>1) MENT  ->                  adjustment     ->  adjust
    (m>1) ENT   ->                  dependent      ->  depend
    (m>1 and (*S or *T)) ION ->     adoption       ->  adopt
    (m>1) OU    ->                  homologou      ->  homolog
    (m>1) ISM   ->                  communism      ->  commun
    (m>1) ATE   ->                  activate       ->  activ
    (m>1) ITI   ->                  angulariti     ->  angular
    (m>1) OUS   ->                  homologous     ->  homolog
    (m>1) IVE   ->                  effective      ->  effect
    (m>1) IZE   ->                  bowdlerize     ->  bowdler

通过前面的四个步骤,后缀就被去掉了,剩下最后一步做一些微调操作。

步骤5

(m>1) E     ->                  probate        ->  probat
                                    rate           ->  rate
    (m=1 and not *o) E ->           cease          ->  ceas

(m > 1 and *d and *L) -> single letter
                                    controll       ->  control
                                    roll           ->  roll

有人专门对Porter的算法进行了测评,发现词干提取能显著提高召回率,而且轻度提取对准确率影响不大,但是深度提取会严重影响准确率,所以他们建议,首先使用轻度提取,如果查询结果太少时再使用深度提取。

[搜索]波特词干(Porter Streamming)提取算法详解(3)相关推荐

  1. [搜索]波特词干(Porter Streamming)提取算法详解(2)

     接[搜索]波特词干(Porter Streamming)提取算法详解(1), http://blog.csdn.net/zhanghaiyang9999/article/details/4162 ...

  2. [搜索]波特词干(Porter Streamming)提取算法详解(1)

    英语词汇由两部分构成,词干和词缀,词缀又分前缀和后缀,这里的词干提取仅只去除后缀的操作. 波特词干提取算法的原文在这里 http://tartarus.org/~martin/PorterStemme ...

  3. SIFT特征点提取及描述论文算法详解

    SIFT特征点提取及描述论文算法详解 1. 尺度空间极值检测(Scale-space extrema detection) 1.1 尺度空间和极值 1.2 DoG和LoG的关系 1.3 构建高斯尺度差 ...

  4. 新颖性搜索(Novelty Search,NS)算法详解与实现

    新颖性搜索(Novelty Search,NS)算法详解与实现 基于目标的进化算法的缺点 新颖性搜索与自然进化 新颖性指标 算法描述 新颖性搜索算法实践 基于目标的进化算法的缺点 大多数机器学习方法( ...

  5. 推荐系统简介+算法详解+项目介绍

    目录标题 推荐系统简介 1.推荐系统目的 2.推荐系统的应用 3.推荐系统的基本思想 4.推荐系统的数据分析 5.推荐系统的分类 6.推荐算法简介 6.1 基于人口统计学的推荐算法(基于用户数据) 6 ...

  6. JVM底层原理+四大垃圾回收算法详解-周阳老师

    转载自,感谢原作者:https://www.jianshu.com/p/9e6841a895b4 注意:垃圾回收算法周阳老师讲的有错误,具体在p19,四大垃圾回收算法为复制算法.标记-整理算法.标记- ...

  7. 基于内容的推荐算法详解+问题思考

    前言 最近参加了一个推荐的比赛,就像了解一些推荐相关的技术,也跟着学习总结一下,相同的内容不同的理解,我也要记录下我的思考. 场景 我们假设一个电商的场景,电商有很多商品,怎么把商品推荐给用户 就是我 ...

  8. matlab的NLP功能,pyhanlp 共性分析与短语提取内容详解

    pyhanlp 共性分析与短语提取内容详解 简介 HanLP中的词语提取是基于互信息与信息熵.想要计算互信息与信息熵有限要做的是 文本分词进行共性分析.在作者的原文中,有几个问题,为了便于说明,这里首 ...

  9. 目标检测 RCNN算法详解

    原文:http://blog.csdn.net/shenxiaolu1984/article/details/51066975 [目标检测]RCNN算法详解 Girshick, Ross, et al ...

最新文章

  1. 使用 Struts2 校验器校验用户注册信息的例子
  2. Unity Shader基本例子
  3. javascript中变量没有块级作用域---函数内申明的变量在整个函数中都有效!
  4. 十张图解释机器学习的基本概念
  5. 配置 Azure 文件-4-1-Azure 文件共享
  6. 《第一行代码》学习笔记24-持久化技术(3)
  7. java 方法保存变量_java – 在初始化对象或将其保存为变量并调用该方法时,调用方法的速度更快...
  8. java webservice ip_通过Web Service实现IP地址查询功能的示例
  9. python画圣诞树代码解读_实战 | 教你用Python画各种版本的圣诞树
  10. 真不是炼丹,务实敢为的 MoCo v3
  11. 从入门到入土:Python实现爬取刷新微博推荐和最新好友微博|cookie调用|模拟登录
  12. 关于sql中字符串的疑惑
  13. Android-JNI开发系列《六》jni与java的交互
  14. python3 相对路径导入_Python中相对路径(导入)和绝对路径(导入)的区别
  15. Android Patcher应用增量更新(App补丁式更新,无需下载整个apk)
  16. MySQL计算环比、同比(年、月、季度)
  17. word2016 卡顿_word2016经常发生卡顿现象
  18. Unity 音频合并
  19. 第一次向git.oschina.net提交项目
  20. 职称计算机的考题整理分享,是2011年的,支持自学成才的人

热门文章

  1. 工人物语5战役攻略_《工人物语5》菜单详解攻略
  2. Clair镜像安全扫描工具
  3. python 语音识别深度学习_用Python实现语音识别的终极指南
  4. 木工加工中心操作教程
  5. 史上最全的IP地址详解,速来get
  6. php7.2微信明文加密,微信公众平台开发:消息加密
  7. 视频教程-板绘生存指南-原画设计
  8. 使用CXF框架开发WebService客户端
  9. 算法系列之十八:用天文方法计算二十四节气(上)
  10. 前程无忧51job爬虫利用selenium爬取岗位信息-2021年10月29日