匹配提取

一些字符串既包含中文、也包含英文、数字等,需要对这类字符串做提取,单个中文字符、英文单词以及数字表达等。需要采用正则匹配的方式来做

比如对于如下针对数据的描述

Android/IOS 2条装(0.25米+1米)土豪金

拆分后想要得到

"Android" "/" "IOS" "2" "条" "装" "(" "0.25" "米" "+" "1" "米" ")" "土" "豪" "金"

可以采用正则的方式匹配提取这些字符

def str_split(str):regex = r"[\u4e00-\u9fef]|[0-9.]*[0-9]+|[a-zA-Z]+\'*[a-z]*|."matches = re.findall(regex, str, re.UNICODE)return matches
print(str_split("Android/IOS 2条装(0.25米+1米)土豪金"))

输出结果如下:

['Android', '/', 'IOS', ' ', '2', '条', '装', '(', '0.25', '米', '+', '1', '米', ')', '土', '豪', '金']

正则解析

通过python包re来做正则匹配提取

包括四部分:中文字符、数字、英文单词和其它字符

中文字符:[\u4e00-\u9FEF]
汉字的unicode编码从4E00开始,基本汉字到9FA5,基本补充到9FEF。
汉字的unicode编码可见 汉字的unicode编码

数字:[0-9]*[.]?[0-9]+
这里只匹配了整数或者带小数的情况,对于科学计数的方式还需要另外考虑。

英文单词:[a-zA-Z]+\’*[a-z]*

其它字符: .

python正则匹配中文/英文/数字/其它字符相关推荐

  1. 西北乱跑娃 --- python正则匹配中文以及数字和标点

    很多朋友在做爬虫和数据采集的时候会遇见字符中存在很多的特殊字符,影响数据的质量.今天给大家写一段代码用于数据清洗: 方法一: info = '' str = '<@ba.rem>可以在下列 ...

  2. php正则匹配中文和英文字母,PHP正则匹配中文字母数字正则的表达式

    PHP正则匹配中文字母数字正则的表达式 PHP语言是一门实用性很强的语言,下面小编为大家带来了关于PHP正则匹配中文字母数字正则的'表达式,欢迎大家阅读! PHP正则匹配中文字母数字正则的表达式 代码 ...

  3. Python正则匹配中文与编码总结

    ###字符串的编码乱码问题由来已久,真的是令人头疼.这不是在做正则匹配中文时候,编码又一次成了拦路虎,在这儿记录两点.第一,字符串编码.第二,正则匹配中文. 早期编码都用ASCII编码,用一个字节来处 ...

  4. python正则匹配中文_python 正则表达式匹配中文-阿里云开发者社区

    python 正则表达式匹配中文 文件编码为 utf-8 设置默认编码为 utf-8 中文需要转换为 \u 形式的编码,也就是  编码, 轮换方法,cmd 下执行 python 进入 python 命 ...

  5. hive:正则:匹配中文/英文/数字(REGEXP 和 rlike)

    目录 1:匹配数字 数字在0到3位 数字固定有6位 第二位为数字6的,有且只有两位数 第二位为数字6的,但不只有两位数 第二位为数字6的,后边再追加1到2位数字 手机号|邮箱中含有手机号的邮箱 2:匹 ...

  6. python正则匹配11个数字_Python正则表达式匹配字符串中的数字

    导读 这篇文章主要介绍了Python正则表达式匹配字符串中的数字,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 1.使用"\d+"匹配全数字 ...

  7. python2 正则匹配中文汉字数字字母

    python2 re.compile匹配中文数字字母: # -*- coding: utf-8 -*- import redef chineseToUnic(ch):# 中文字符串转unicode编码 ...

  8. 正则匹配中文英文字符及标点

    /^([\p{Han}\p{P}A-Za-z0-9])*$/u   其中 \p{Han}表示utf-8编码中的所有中文字符, \p{P}表示中英文标点, A-Z表示大写字母, a-z表示小写英文字母, ...

  9. 正则匹配中文英文字符、数据及标点

    /^([\p{Han}\p{P}A-Za-z0-9])*$/u其中 \p{Han}表示utf-8编码中的所有中文字符, \p{P}表示中英文标点, A-Z表示大写字母, a-z表示小写英文字母, 0- ...

最新文章

  1. Codeforces1600数学[CodeForces - 958E1[平面几何+暴力]CodeForces - 888D [组合数+错排问题]]
  2. cnc加工中心保养表_CNC数控加工中心,硬轨的好还是线轨的好?
  3. c# 非阻塞算法_c#创建非阻塞tcp通信
  4. MyBatis学习总结(五)——实现关联表查询
  5. textarea 固定大小,滚动条,限制拖动,文字对齐
  6. 银行登录控件仿制--防钩子,防嗅探
  7. oracle 三层嵌套查询,oracle 三层嵌套分页查询
  8. 大数据薪资报告出炉:你的工资拖后腿了吗?
  9. 如何通过离线安装的方式让sublime text具有TypeScript语法高亮的功能
  10. Redis的Java客户端Jedis的八种调用方式(事务、管道、分布式)介绍
  11. python--从入门到实践--chapter 10 文件及错误
  12. 2021巨量引擎母婴行业白皮书
  13. ios web页面测试方法
  14. YOLO-Fastest算法!准确率接近YOLOv3,速度快上45%
  15. 台积电预计5nm芯片四季度出货量将超过15万片晶圆,9成供应苹果
  16. springboot整个缓存_Github点赞接近100k的SpringBoot学习教程+实战推荐!牛批!
  17. IE和火狐读取XML方法比较
  18. 深入理解 Java 中 protected 修饰符
  19. 读书 -- 个人购书经验总结
  20. ps怎么把模糊的图片变清楚

热门文章

  1. vivo怎么切换为Android,vivox60pro如何切换系统 一键切换手机不通系统方法
  2. 鲜枣课堂之深入浅出数字信号处理
  3. html实现五子棋ai,JS实现五子棋——AI篇
  4. 论文详解EnlightenGAN: Deep Light Enhancement Without Paired Supervision
  5. matlab设置非平坦结构元,基于多尺度多结构元的数学形态学边缘检测
  6. java8的lambda中的map相关操作
  7. 目标检测各类数据集格式互转以及处理方法(VOC, COCO, txt)
  8. 洛谷 P3975 [TJOI2015]弦论 解题报告
  9. sc-RNA seq与Illumina测序
  10. 8. G1垃圾收集日志