python 中文字符串分割与拼接

1. 中文字符串分割

path = 'D:/硕博/博士生期间资料/机器学习/机器学习课程资料/HW1/data/本纪list格式/高祖本纪.txt'
with open(path,'r',encoding='utf-8') as f:d1 = f.readlines() #按行读取txt内容

d1是一个list 每一个元素是txt的一行

1 使用list()函数将一个字符串按单个汉字分割

#将列表中的每一个元素按照单个汉字分割
new_list = [] #新建空列表,用于储存分割之后的单个汉字
for line in d1:line = list(line)#使用list()函数,将每一行的每一个字都变成子列表中的元素new_list.append(line)
for i in range(20):print('---这是new_list的第{}个元素---:'.format(i))    print(new_list[i])

  1. 使用re.split(pattern,string,maxsplit=0)

pattern:分隔符
string:待分割字符串
maxsplit:最大分割次数 默认maxsplit=0,即不限制分割次数

import re
path1 = 'D:/硕博/博士生期间资料/机器学习/机器学习课程资料/HW1/data/本纪/高祖本纪.txt'
with open(path1,'r',encoding='utf-8')as f1:d2 = f1.read()#一次性读取txt全部内容

(1)指定单个分隔符re.split('分割符号',string)

d3 = re.split(',',d2)

【说明】结果返回list,可以看到只有逗号被视为分割依据,按逗号分行

(2)指定多个分隔符re.split([分隔符1,分隔符2,分隔符3],string)

tags = '[,。!]'
#通过列表的方式传入多个分隔符
d4 = re.split(tags,d2)

【说明】和上图比较,可以看到进一步地按照句号对字符串进行了分割

2. 中文字符串拼接

(1)list元素拼接

d6 = ''.join(d1)
type(d6)

【说明】
d1是一个list
使用’’.join(d1)将d1中的所有元素拼接成一个str

(2)str拼接

直接使用“+”

str_new = string1+string2

python 中文字符串分割与拼接相关推荐

  1. java String中文字符串分割成数组 中文字符串分割成一定长度的字符串数组

    java String中文字符串分割成一定长度的字符串数组 /*** 几个字一组 变量控制 大于零有意义*/ int num = 6; /*** 待操作的字符串*/ String str = &quo ...

  2. php支持中文字符串分割的函数

    <?php/*** str_split不支持中文,利用mb_xx函数实现个* 2个用哪个都成* */ $str = "月日上午湖北荆州安良百货商场内一名岁的女子被搅入手扶电梯身亡据广西 ...

  3. python字符串拼接数字_解决Python中字符串和数字拼接报错的方法

    解决Python中字符串和数字拼接报错的方法 前言 众所周知Python不像JS或者PHP这种弱类型语言里在字符串连接时会自动转换类型,如果直接将字符串和数字拼接会直接报错. 如以下的代码: # co ...

  4. python 字符串分割和拼接_python分割和拼接字符串

    关于string的split 和 join 方法 对导入os模块进行os.path.splie()/os.path.join() 貌似是处理机制不一样,但是功能上一样. 1.string.split( ...

  5. python 中文字符串截取,Python实现针对含中文字符串的截取功能示例

    本文实例讲述了Python实现针对含中文字符串的截取功能.分享给大家供大家参考,具体如下: 对于含多字节的字符串,进行截断的时候,要判断截断处是几字节字符,不能将多字节从中分割,避免截断后乱码 下面给 ...

  6. python中文字符串多余空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...

    python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...

  7. python中文字符串编码_浅谈python下含中文字符串正则表达式的编码问题

    前言 Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文. 所以py文件中要写中文字符时,一般在开头加 # -*- coding: utf-8 -*- 或者 #co ...

  8. python中文字符串转list

    本文主要记录了将中文字符串转换为list的过程,其中我们使用了keras preprocessing中的text_to_word_sequence方法.这个方法是完全适配中文的.需要注意的是,中文语料 ...

  9. python中文字符串编码_python中文乱码 字符串和编码

    Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了. Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节).现代操作系统和大 ...

最新文章

  1. 如何快速写一个违背双亲委托机制的classloader
  2. 如何将TXT,EXCEL或CSV数据导入ORACLE到对应表中
  3. 英雄多少钱steam_¥50元到手蓝宝石显卡?玩转GTAV轻松CSGO英雄联盟帧数144fps
  4. 一眼定位问题,函数计算发布日志关键词秒检索功能
  5. SAGPool图分类
  6. mysql把latin1编码的中文转成gbk(或utf8)编码
  7. google搜索引擎优化指南_Google谷歌SEO怎么优化?|新手入门完全指南
  8. vue延迟渲染组件_做一个可复用的 echarts-vue 组件(延迟动画加载)
  9. mysql 查询若干小时之内的数据
  10. hibernate笔记(三)
  11. 左右滑屏设置_android手势滑屏及左右滑屏
  12. visual studio code下载慢解决办法
  13. 高速的二舍八入三七作五_详解青银高速市区段计费方法人工车道比ETC贵3元
  14. 用Python绘制K线图
  15. 程序员来聊一聊信用卡(三)——信用卡的一些基本分类
  16. 37.深度解密三十七:网络营销推广之百度经验营销全过程步骤讲解
  17. html 去掉html超链接下划线
  18. 齐二TK6916/20/26/32系列数控落地铣镗床简介4
  19. Android快捷方式
  20. Android学习:线程同步之synchronized

热门文章

  1. H5分享链接,禁止微信浏览器放大字体导致排版错乱不适配问题
  2. 测试手机双摄的软件,盘点主流单双摄手机,实际测试哪一款拍照更成熟?
  3. web系统四层结构中服务器端,Web数据库应用的三层体系结构Web服务器.PPT
  4. C#简单使用redis锁
  5. postgresql查看表结构命令
  6. HP LaserJet MFP M132snw网络打印机经常显示脱机
  7. 辽师04级计算机学院微信群,开学第一课 | 辽师附中两位名师微信群指导高三规划数学高分策略...
  8. 用Tableau制作导出图像按钮
  9. 关于anaconda安装pytorch报错找不到包
  10. STM32实战总结:HAL之wifi