我试图以这样一种方式来解析字符串,以便分离出所有的单词组件,甚至那些已经收缩的组件。例如,“should't”的标记化将是[“should”,“n't”]。在

nltk模块似乎无法胜任该任务,但是:"I wouldn't've done that."

标记为:['I', "wouldn't", "'ve", 'done', 'that', '.']

其中所需的“would't”标记化为:['would',“n't”,“ve”]

在研究了常见的英语缩略语之后,我试图编写一个正则表达式来完成这项工作,但是我很难弄清楚如何只匹配一次“'ve”。例如,以下标记都可以终止收缩:n't, 've, 'd, 'll, 's, 'm, 're

但是代币“'ve”也可以跟在其他缩略语之后,比如:'d've, n't've, and (conceivably) 'll've

目前,我正试图解决这个正则表达式:\b[a-zA-Z]+(?:('d|'ll|n't)('ve)?)|('s|'m|'re|'ve)\b

但是,此模式也与格式错误的匹配:"wouldn't've've"

问题似乎是第三个撇号限定为单词边界,这样最后的“'ve”标记与整个regex匹配。在

我一直想不出一种方法来区分单词边界和撇号,如果没有,我愿意接受其他策略的建议。在

另外,我很好奇是否有任何方法可以在字符类中包含单词边界特殊字符。根据Python文档,character类中的\b与退格符匹配,似乎没有办法解决这个问题。在

编辑:

输出如下:>>>pattern = re.compile(r"\b[a-zA-Z]+(?:('d|'ll|n't)('ve)?)|('s|'m|'re|'ve)\b")

>>>matches = pattern.findall("She'll wish she hadn't've done that.")

>>>print matches

[("'ll", '', ''), ("n't", "'ve", ''), ('', '', "'ve")]

我想不出第三场比赛。特别是,我刚刚意识到,如果第三个撇号与前导\b匹配,那么我不知道什么会匹配字符类[a-zA-Z]+。在

python常用英文缩写_Python正则表达式:标记英语缩略语相关推荐

  1. python常用英文缩写_python常用英文单词

    application 应用程式 应用.应用程序 application framework 应用程式框架.应用框架 应用程序框架 architecture 架构.系统架构 体系结构 argument ...

  2. python 常用包_Python常用指引

    Python常用指引 Python常用指引的形式来源于Linux文档项目的常用指引章节,是一系列独立.指定主题并尝试完全覆盖该主题的文章集合.致力于提供比Python库参考帮助更详尽的文档. Pyth ...

  3. python常用类库_Python常用库

    Python常用库 一.time:时间处理模块 import time 1.time.time() time time() 返回当前时间的时间戳(1970纪元后经过的浮点秒数). import tim ...

  4. python正则匹配_Python正则表达式只匹配一次

    我正在尝试创建一个简单的降价乳胶转换器,只是为了学习 python和基本的正则表达式,但我不知道试图弄清楚为什么下面的代码不起作用: re.sub (r'\[\*\](.*?)\[\*\]: ?(.* ...

  5. python 常用库_Python程序员解决棘手问题的常用库

    无论做为Python大牛,还是一个Python菜鸟,在编程的道路上都会遇到诸多种很棘手的问题.如下介绍的内个库是Python诸多问题解决中,最常用到的.希望这些Python的库可以帮您快速解决遇到的棘 ...

  6. python findall函数_Python正则表达式

    什么是正则表达式 •正则表达式是字符串处理的有力工具,比字符串自身提供的方法提供了更强大的处理功能. •例如判断一个字符串是否是合法的Email地址,可以通过构造一个规则(正则表达式),去判断字符串是 ...

  7. python正则匹配_Python正则表达式详解

    正则表达式,又称规则表达式(Regular Expression),是使用单个字符串来描述.匹配某个句法规则的字符串,常被用来检索.替换那些符合某个模式(规则)的文本.最初的正则表达式出现于理论计算机 ...

  8. python常用代码_Python常用算法学习(4) 数据结构(原理+代码)-最全总结

    数据结构简介 1,数据结构 数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成.简单来说,数据结构就是设计数据以何种方式组织并存贮在计算机中.比如:列表,集合与字 ...

  9. python算法口诀_python 正则表达式口诀

    正则其实也势利,削尖头来把钱揣: (指开始符号^和结尾符号$) 特殊符号认不了,弄个倒杠来引路: (指\. \*等特殊符号) 倒杠后面跟小w, 数字字母来表示: (\w跟数字字母;\d跟数字) 倒杠后 ...

  10. python正则库_python 正则表达式第三方库 re的基本使用

    re模块简介: 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配,而re模块就是python中实现正则的模块 正则表达式简介: 非打印字符: 非打印字符也可以是正则表达 ...

最新文章

  1. 【置顶】利用 NLP 技术做简单数据可视化分析教程(实战)
  2. HTML Add-on HTML 查看器/编辑器查看器
  3. CentOS6.3挂载读写NTFS分区
  4. kubernetes(六)k8s核心组件学习
  5. 计算机应用基础126题,2015-2016年全国计算机应用基础总复习.
  6. 独家分享| 2019年校招大厂算法自己经历和好友经验(大疆,百度,腾讯……)
  7. SharingSphere 源码解析 -- 真实SQL生成探索
  8. Thinking in Java 13.5.4格式化说明符
  9. 库存管理软件挑选窍门:怎么才算合格的库存管理软件?
  10. excel线性拟合的斜率_Excel 计算线性回归线斜率:SLOPE函数
  11. 基于扩频信号的水声信道数据传输系统仿真,研究满足了WSSUS假设的瑞利信道模型,采用相干BPSK调制,联合多普勒Rake接收机
  12. QT 水晶圆角按钮样式
  13. 等效于35mm相机焦距的计算方法
  14. 模拟电子经典200问
  15. 測試電容器好壞与常用单位换算
  16. 电脑位置,Windows10系统查找电脑设备位置的方法介绍
  17. 产品管理工具和项目管理工具
  18. ExtractFileName、ExtractFileExt、ExtractFileDir、ExtractFilePath
  19. Android基础--首选项(SharedPreferences)
  20. 网络:简述对CT,IT,ICT,OT的认识

热门文章

  1. 数据交换平台-初步设计
  2. apt-get autoremove remove 新手收割者
  3. DSI3协议理论基础讲解
  4. ORA-1652: unable to extend temp segment by 128 in tablespace TEMP
  5. 一种可调电子负载电路/可调恒流源电路
  6. 用单摆测量重力加速度
  7. linux最大限度压缩文件,在Linux系统上使用最高的zip压缩级别
  8. iOS Orientation 屏幕旋转
  9. python三维图形等高线_python等高线
  10. 残暴啊,HR 智库联盟,难道真是打工人的噩梦?