用正则匹配生成固定格式的随机文本python
用正则匹配生成固定格式的随机文本python
- 生成文本
- 导入python包
- 生成随机数字--年龄
- 生成随机英文名
- 生成随机城市名
- 正则匹配
- 构造重复字符串
生成文本
导入python包
import random
import string
import numpy as np
import pandas as pd
生成随机数字–年龄
age=[]
for i in range(10, 100):num = random.randint(10,100)age.append(num)
#age
生成随机英文名
name=[]
for i in range(100):name_str = ''.join(random.sample(string.ascii_letters, random.randint(3, 5)))name.append(name_str.capitalize())
#name
生成随机城市名
city=[]
for i in range(100):city_str=''.join(random.sample(string.ascii_letters, random.randint(5,7)))city.append(city_str.upper())
#city
#age
- age默认为2位数;
- name默认为首字母大写的3-5个英文字母;
- city默认为5-7个大写英文字母;
正则匹配
- 当你要匹配 一个/多个/任意个 数字/字母/非数字/非字母/某几个字符/任意字符,想要 贪婪/非贪婪 匹配,想要捕获匹配出来的 第一个/所有 内容的时候,python正则表达式小抄:
构造重复字符串
# data_raw
Hi, I'm [Bob] and I from {SZ}, I'm (18) years old.
Hello, I am [RPI], I'm (20) years old and I come from {GZ}.
I born in {YuLin}. I'm (24), just call me [ATA].
I don't want to tell you my name, but I from {ShangHai}.
Hey My name is [CZW], I live in {HangZhou}, what's your name?
Hi, I'm [Tom] and I from {RY}, I'm (78) years old.
Hello, I am [ABG], I'm (40) years old and I come from {HU}.
I born in {Liuzhou}. I'm (24), just call me [HYU].
I don't want to tell you my name, but I from {Nanchang}.
Hey My name is [YUN], I live in {WUHAN}, what's your name?
Hi, I'm [Lily] and I from {BJ}, I'm (6) years old.
Hello, I am [Yin], I'm (23) years old and I come from {guigang}.
## 构造重复字符串
with open('data_raw.txt') as f:essay=f.read()import re
sen=essay.strip().split('\n')
train_text=[]
for i in range(len(age)):for row in sen:str1=rowages = re.sub(r'\(.*?\)','(%s)'%(random.choice(age)), str1)names = re.sub(r'\[.*?\]',f'[{random.choice(name)}]', str1)cities = re.sub(r'\{.*?\}','{%s}'%(random.choice(city)), str1)train_text.append(str1)#train_text
random.shuffle(train_text)
如此,便可自己构造数据来进行NLP处理。
用正则匹配生成固定格式的随机文本python相关推荐
- 如何生成固定格式的流水号条码
流水号条形码是企业生产中进行批次管理的常用方式,需要在产品上粘贴条码,这些条码的要求是:按流水号序列打印,而且要有固定格式,每张都不同.这些条形码作为企业内部管理使用,是可以自己编辑的.下面小编就演示 ...
- 匹配已固定格式开头,固定结尾的正则
记录两个我目前参与的项目中前端用到的两个匹配固定格式开头,固定格式结尾的正则 1:匹配#开头,#结尾的 xxx.match(/#.?#/g) 2:匹配{开头,}结尾的 xxx.match(/{.?}/ ...
- java随机产生100个大小写字母_Java生成固定长度的随机字符串(以大小写字母和数字)...
packageorg.jimmy.autosearch2019.test;importjava.util.ArrayList;importjava.util.Random;/***@authorラピス ...
- Java生成固定长度的随机字符串(以大小写字母和数字)
package org.jimmy.autosearch2019.test;import java.util.ArrayList; import java.util.Random;/*** @auth ...
- python正则匹配空格+数字+空格_详解Python中正则匹配TAB及空格的小技巧
详解Python中正则匹配TAB及空格的小技巧 发布时间:2020-10-15 08:38:48 来源:脚本之家 阅读:94 作者:杰瑞26 在正则中,使用.*可以匹配所有字符,其中.代表除\n外的任 ...
- 低代码学习教程:生成固定格式流水号
方法1:RECNO() 方法2:MAPX() 表单设计中经常涉及流水号的制作问题,下面就分别介绍下两种编号的实现方法,大家可以根据需要自行选择. 注意: 百数已支持[流水号]控件,如有特殊要求可参考文 ...
- 正则匹配电话号码 固定电话号码
手机号码 var reg1= /^1[**0-9]{10}$/ 电话号码 var reg2= /^([0-9]{3,4}-)?[0-9]{7,8}$/ var lxdh='123456425' 1.验 ...
- python 批量替换srt文本_自动生成srt格式的脚本(Python实现)
用威力导演制作短片,这个软件有个导入srt字幕的功能,可以写好文本后一次性导入短片的字幕,比手工在威力导演里写快多了,srt文本中,每一条字幕的格式是: 序号 起止时间 字幕内容 例如: 1 00:0 ...
- php随机不相同整数,生成固定范围不重复随机整数(JSPHP)
JavaScript版本 function randomArr(/*最大随机数*/max, /*随机数个数*/amount,/*最小随机数*/min) { if (!min) min = 0; if ...
- php 正则匹配乱码,php正则匹配utf-8编码的中文汉字
在javascript中,要判断字符串是中文是很简单的.比如: var str = "php编程"; if (/^[\u4e00-\u9fa5]+$/.test(str)) { a ...
最新文章
- crm客户资源显示控制
- 使用jquery.qrcode生成二维码(转)
- log4j日志文件配置说明及使用
- 塞尔达盾反机器人_微软商店惊现《塞尔达传说:旷野之息》!任天堂暗示《喷射战士3》?| Jump简报...
- 深度学习-词嵌入(word2vec)
- IOS之block,一点小心得
- [android] 帧动画和补间动画
- require-ensure
- 【技术分享】select下拉框option默认选中(php模板渲染)
- PS制作视频字幕教程
- WDF pci驱动开发的若干总结
- 摄影场景拍摄方法笔记
- 阿里云HaaS100物联网开发板学习笔记(一)硬件资源介绍
- 旅行售货商模型matlab,旅行售货员问题的几种解决方案.doc
- python pymysql连接池_杂项之pymysql连接池
- 囤内存条,比买基金、白酒还赚钱
- 使用 HSDB 查看Spring AOP产生的代理类
- 2020年博客日报第4篇|多数据源管理插件(支持不同数据库)
- 不小心将 U 盘抹成 APFS 格式,应该如何恢复?
- 使用Keras进行深度学习:(一)Keras 入门
热门文章
- fromPCAtoprincipalcurvetoprincipalgraph_拔剑-浆糊的传说_新浪博客
- 我的计算机c盘计划,我的电脑C盘空间不够,该怎么样清理?
- Flask部署机器学习模型---基于线性回归模型的销售预测系统实现简易版代码
- win10电池图标不能调亮度_win10电池图标下面的亮度调节用不了
- Pug 介绍和在 Vue 中使用
- 玉米社:百度竞价关键词“否定”与“精确否定”的区别
- 不使用setPositiveButton 如何让alertdialog消失
- 使用PHP获取图像文件的EXIF信息
- Python爬虫实战之抓取猫眼电影
- 学生信息管理系统心得