[搜索]波特词干(Porter Streamming)提取算法详解(3)
接上
[搜索]波特词干(Porter Streamming)提取算法详解(2)
下面分为5大步骤来使用前面提到的替换条件来进行词干提取。
左边是规则,右边是提取成功或者失败的例子(用小写字母表示)。
步骤1
SSES -> SS caresses -> caress
IES -> I ponies -> poni
ties -> ti
SS -> SS caress -> caress
S -> cats -> cat
(m>0) EED -> EE feed -> feed
agreed -> agree
(*v*) ED -> plastered -> plaster
bled -> bled
(*v*) ING -> motoring -> motor
sing -> sing
AT -> ATE conflat(ed) -> conflate
BL -> BLE troubl(ed) -> trouble
IZ -> IZE siz(ed) -> size
(*d and not (*L or *S or *Z))
-> single letter
hopp(ing) -> hop
tann(ed) -> tan
fall(ing) -> fall
hiss(ing) -> hiss
fizz(ed) -> fizz
(m=1 and *o) -> E fail(ing) -> fail
fil(ing) -> file
(*v*) Y -> I happy -> happi
sky -> sky
通过步骤1的处理,复数和过去分词就被处理了。
步骤2
(m>0) ATIONAL -> ATE relational -> relate
(m>0) TIONAL -> TION conditional -> condition
rational -> rational
(m>0) ENCI -> ENCE valenci -> valence
(m>0) ANCI -> ANCE hesitanci -> hesitance
(m>0) IZER -> IZE digitizer -> digitize
(m>0) ABLI -> ABLE conformabli -> conformable
(m>0) ALLI -> AL radicalli -> radical
(m>0) ENTLI -> ENT differentli -> different
(m>0) ELI -> E vileli - > vile
(m>0) OUSLI -> OUS analogousli -> analogous
(m>0) IZATION -> IZE vietnamization -> vietnamize
(m>0) ATION -> ATE predication -> predicate
(m>0) ATOR -> ATE operator -> operate
(m>0) ALISM -> AL feudalism -> feudal
(m>0) IVENESS -> IVE decisiveness -> decisive
(m>0) FULNESS -> FUL hopefulness -> hopeful
(m>0) OUSNESS -> OUS callousness -> callous
(m>0) ALITI -> AL formaliti -> formal
(m>0) IVITI -> IVE sensitiviti -> sensitive
(m>0) BILITI -> BLE sensibiliti -> sensible
步骤3
(m>0) ICATE -> IC triplicate -> triplic
(m>0) ATIVE -> formative -> form
(m>0) ALIZE -> AL formalize -> formal
(m>0) ICITI -> IC electriciti -> electric
(m>0) ICAL -> IC electrical -> electric
(m>0) FUL -> hopeful -> hope
(m>0) NESS -> goodness -> good
步骤4
(m>1) AL -> revival -> reviv
(m>1) ANCE -> allowance -> allow
(m>1) ENCE -> inference -> infer
(m>1) ER -> airliner -> airlin
(m>1) IC -> gyroscopic -> gyroscop
(m>1) ABLE -> adjustable -> adjust
(m>1) IBLE -> defensible -> defens
(m>1) ANT -> irritant -> irrit
(m>1) EMENT -> replacement -> replac
(m>1) MENT -> adjustment -> adjust
(m>1) ENT -> dependent -> depend
(m>1 and (*S or *T)) ION -> adoption -> adopt
(m>1) OU -> homologou -> homolog
(m>1) ISM -> communism -> commun
(m>1) ATE -> activate -> activ
(m>1) ITI -> angulariti -> angular
(m>1) OUS -> homologous -> homolog
(m>1) IVE -> effective -> effect
(m>1) IZE -> bowdlerize -> bowdler
通过前面的四个步骤,后缀就被去掉了,剩下最后一步做一些微调操作。
步骤5
(m>1) E -> probate -> probat
rate -> rate
(m=1 and not *o) E -> cease -> ceas
(m > 1 and *d and *L) -> single letter
controll -> control
roll -> roll
有人专门对Porter的算法进行了测评,发现词干提取能显著提高召回率,而且轻度提取对准确率影响不大,但是深度提取会严重影响准确率,所以他们建议,首先使用轻度提取,如果查询结果太少时再使用深度提取。
[搜索]波特词干(Porter Streamming)提取算法详解(3)相关推荐
- [搜索]波特词干(Porter Streamming)提取算法详解(2)
接[搜索]波特词干(Porter Streamming)提取算法详解(1), http://blog.csdn.net/zhanghaiyang9999/article/details/4162 ...
- [搜索]波特词干(Porter Streamming)提取算法详解(1)
英语词汇由两部分构成,词干和词缀,词缀又分前缀和后缀,这里的词干提取仅只去除后缀的操作. 波特词干提取算法的原文在这里 http://tartarus.org/~martin/PorterStemme ...
- SIFT特征点提取及描述论文算法详解
SIFT特征点提取及描述论文算法详解 1. 尺度空间极值检测(Scale-space extrema detection) 1.1 尺度空间和极值 1.2 DoG和LoG的关系 1.3 构建高斯尺度差 ...
- 新颖性搜索(Novelty Search,NS)算法详解与实现
新颖性搜索(Novelty Search,NS)算法详解与实现 基于目标的进化算法的缺点 新颖性搜索与自然进化 新颖性指标 算法描述 新颖性搜索算法实践 基于目标的进化算法的缺点 大多数机器学习方法( ...
- 推荐系统简介+算法详解+项目介绍
目录标题 推荐系统简介 1.推荐系统目的 2.推荐系统的应用 3.推荐系统的基本思想 4.推荐系统的数据分析 5.推荐系统的分类 6.推荐算法简介 6.1 基于人口统计学的推荐算法(基于用户数据) 6 ...
- JVM底层原理+四大垃圾回收算法详解-周阳老师
转载自,感谢原作者:https://www.jianshu.com/p/9e6841a895b4 注意:垃圾回收算法周阳老师讲的有错误,具体在p19,四大垃圾回收算法为复制算法.标记-整理算法.标记- ...
- 基于内容的推荐算法详解+问题思考
前言 最近参加了一个推荐的比赛,就像了解一些推荐相关的技术,也跟着学习总结一下,相同的内容不同的理解,我也要记录下我的思考. 场景 我们假设一个电商的场景,电商有很多商品,怎么把商品推荐给用户 就是我 ...
- matlab的NLP功能,pyhanlp 共性分析与短语提取内容详解
pyhanlp 共性分析与短语提取内容详解 简介 HanLP中的词语提取是基于互信息与信息熵.想要计算互信息与信息熵有限要做的是 文本分词进行共性分析.在作者的原文中,有几个问题,为了便于说明,这里首 ...
- 目标检测 RCNN算法详解
原文:http://blog.csdn.net/shenxiaolu1984/article/details/51066975 [目标检测]RCNN算法详解 Girshick, Ross, et al ...
最新文章
- 使用 Struts2 校验器校验用户注册信息的例子
- Unity Shader基本例子
- javascript中变量没有块级作用域---函数内申明的变量在整个函数中都有效!
- 十张图解释机器学习的基本概念
- 配置 Azure 文件-4-1-Azure 文件共享
- 《第一行代码》学习笔记24-持久化技术(3)
- java 方法保存变量_java – 在初始化对象或将其保存为变量并调用该方法时,调用方法的速度更快...
- java webservice ip_通过Web Service实现IP地址查询功能的示例
- python画圣诞树代码解读_实战 | 教你用Python画各种版本的圣诞树
- 真不是炼丹,务实敢为的 MoCo v3
- 从入门到入土:Python实现爬取刷新微博推荐和最新好友微博|cookie调用|模拟登录
- 关于sql中字符串的疑惑
- Android-JNI开发系列《六》jni与java的交互
- python3 相对路径导入_Python中相对路径(导入)和绝对路径(导入)的区别
- Android Patcher应用增量更新(App补丁式更新,无需下载整个apk)
- MySQL计算环比、同比(年、月、季度)
- word2016 卡顿_word2016经常发生卡顿现象
- Unity 音频合并
- 第一次向git.oschina.net提交项目
- 职称计算机的考题整理分享,是2011年的,支持自学成才的人