python中内置了re模块,可以根据正则表达式处理字符串,对于一些问题,使用regex库可以更方便的解决。

安装:sudo pip install regex

我使用的版本为python2.7,在处理unicode字符串时需要指定字符编码,python3需要进行相应修改。

载入文本:f = codecs.open(PATH,'r','utf-8')

lines = f.readlines()

通过pandas载入文件:df = pandas.read_csv(PATH,encoding='utf-8')

P:标点字符;

L:字母;

M:标记符号(一般不会单独出现);

Z:分隔符(比如空格、换行等);

S:符号(比如数学符号、货币符号等);

N:数字(比如阿拉伯数字、罗马数字等);

C:其他字符

使用如下代码可以将字符串text中的标点字符和数字全部替换为空格,可以根据情况自行修改。import regex as re

text = re.sub(ur"\p{P}+|\p{N}+", u' ', text)

python正则库安装_python中正则表达式regex库的使用相关推荐

  1. python导入excel类库_Python中使用第三方库xlutils来追加写入Excel文件示例

    Python中使用第三方库xlutils来追加写入Excel文件示例 目前还没有更好的方法来追写Excel,lorinnn在网上搜索到以及之后用到的方法就是使用第三方库xlutils来实现了这个功能, ...

  2. python 正则表达函数_python笔记-正则表达式常用函数

    1.re.findall()函数 语法:re.findall(pattern,string,flags=0) --> list(列表) 列出字符串中模式的所有匹配项,并作为一个列表返回.如果无匹 ...

  3. python正则匹配特殊字符_python 利用正则表达式提取特殊信息

    1.删除字符串中的 Python注释 案例: import re time = "2020-01-01 # 这是一个日期" num = re.sub(r'#.*$', " ...

  4. python正则匹配空格_Python中正则匹配TAB及空格的小技巧

    在正则中,使用.*可以匹配所有字符,其中.代表除\n外的任意字符,*代表0-无穷个,比如说要分别匹配某个目录下的子目录: >>> import re >>> mat ...

  5. python turtle库绘画_python中的turtle库(图形绘画库)

    turtle绘图的基础知识: 1. 画布(canvas) 画布就是turtle为我们展开用于绘图区域,我们可以设置它的大小和初始位置. 设置画布大小 turtle.screensize(canvwid ...

  6. python绘制三维地形_python中的Matplot库和Gdal库绘制富士山三维地形图-参考了虾神的喜马拉雅山...

    首先请大家读一下面这篇文章了解什么是Gdal http://blog.csdn.net/grllery/article/details/77822595 剩下的我要公布绘制富士山的代码了,虽然基本co ...

  7. python中的urllib库_Python2/3中的urllib库

    介绍urllib库在不同版本的Python中的变动,并以Python3.X讲解urllib库的相关用法. urllib库对照速查表 Python2.X Python3.X urllib urllib. ...

  8. python 正则之提取字符串中的汉字,数字,字母

    python 正则之提取字符串中的汉字,数字,字母 #\d 匹配一个数字字符.等价于 [0-9] #\D 匹配一个非数字字符.等价于 [^0-9]#过滤字符串中的英文与符号,保留汉字 import r ...

  9. python算法和数据结构_Python中的数据结构和算法

    python算法和数据结构 To 至 Leonardo da Vinci 达芬奇(Leonardo da Vinci) 介绍 (Introduction) The purpose of this ar ...

  10. python jieba库下载_Python中jieba库安装步骤及失败原因解析

    Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...

最新文章

  1. Python+Django+Ansible Playbook自动化运维项目实战:资产管理
  2. [剑指offer]面试题第[52]题[Leedcode][第160题][JAVA][相交链表][双指针]
  3. Lambda 表达式详解~简化匿名内部类
  4. c++ 操作mysql_C++操作mysql方法总结(1)
  5. 常喝酒的人,为什么会出现手抖的现象?
  6. 决策树 随机森林 xgboost_从决策树到随机森林理论篇从人话到鬼话:看不懂来找我麻烦...
  7. mysql prefix_批量修改MySQL表前缀
  8. wordpress字体_如何在WordPress中使用网络字体
  9. win7查看隐藏文件夹
  10. 识别 Cisco交换机型号
  11. EPUB和PDF的区别,有什么好用的epub阅读器
  12. 2023年,如何管理你的绩效目标?
  13. orcal数据库11g安装时出现物理内存不足的情况解决办法
  14. 如何获取Java运行时的性能数据
  15. linux内核Kmalloc - GFP_ATOMIC - GFP_KERNEL - GFP_USER
  16. mysql权重怎么配置_实现一个简单的mysql带权重的中文全文搜索
  17. Typecho反序列化漏洞分析
  18. 使用 SAP UI5 FileUploader 控件上传本地文件试读版
  19. python办公自动化课程价格_python办公自动化视频教程excel自动化办公全套人工智能程序设计电子版 全部视频...
  20. Pixhawk6c编译

热门文章

  1. 高斯过程和高斯过程回归
  2. ORB-SLAM3学习笔记-基本概念
  3. html/jsp如何固定图像的大小
  4. ​观点|我离开AI行业的5个理由
  5. SNIP物体检测算法理解
  6. Python 大文件处理
  7. Yii2 log分析
  8. 哈希表及处理冲突的方法
  9. Tolerance (定义发票允差)
  10. Extjs使用(最最基础)