文本分割是自然语言理解数据预处理中的重要步骤,本段程序实现的是用",。?!…”分割文章,并且分割子句单句成行

import re
pattern = r"([,。?!…]+)" #正则匹配模式,用+表示至少一个字符
flags = [",","。","?","!","…","……"]
sentence_txt = []
with open("./test.txt","r",encoding="utf-8") as reader_file:for line in reader_file:#一行就是一篇文章spilt_list = re.split(pattern=pattern, string=line)segment = ""for segment_i in spilt_list:            segment += segment_iif segment_i in flags :#去除分割子句中的空格,\n,\t等符号,并加上"\r"回车符换行sentence_txt.append("".join(segment.split())+"\r")segment = ""sentence_txt.append("\r")
with open("./spilt.txt","w",encoding="utf-8") as writer_file:writer_file.writelines(sentence_txt)print(sentence_txt.__len__())

测试文本

我叫琼八蛋,我已经毕业很多年了,至于你要问我毕业的大学的话,非常抱歉,我很不乐意说,因为我的大学是非常神圣的,向别人说的时候我都会忍住。 以前在小学的时候,很多人都会问我:呃,蛋啊,你怎么会取穷八蛋这个名字。以前还小,我都很老实的告诉他们:是我爸爸取的。 但是在我长大了以后,特别是我大学毕业以后,居然还有美女会我这么无知的问题:蛋蛋,谁给你取穷八蛋这么丑的名字! 靠!你鄙视我就好了,居然还敢鄙视我的名字,凡是遇到这种情况,我通常都会回答他:老子姓琼,老子有八个蛋,要是有九个蛋老子就取穷九蛋了! 当然我永远不会告诉他们真相,那就是我老妈在我满月之前就只吃了九个鸡蛋的事实。尽管有无数的人问过我这个问题,但是我还是守身如玉……呃……不,是守口如瓶。 尽管大学毕业了这么多年,我的收入一直不高,个人觉得这肯定和我毕业的学校有关,毕竟开办了数千年的大学,多少可能有些人满为患的隐患。 这天我再一次的来到了镇上,满街都是香喷喷的味道,各种小吃,实在是美味极了。对,就是这种香味,闭着眼睛我都可以闻到这种香味,我闭着眼睛向前走去。尽管大街上人满为患,我还是找到了它,我都不用睁开眼睛,就可以咬上去! “哎呀,你这个色鬼,光天化日之下竟然就敢亲我”!就在准备用餐的时候,居然有一个女人大叫起色鬼来。“哼!色鬼在哪里,光天化日之下,成何体统”! 我是个有正义感的人,面对这样的事情,我不可能不管,于是我睁开了眼睛。“是谁,到底是谁这么无耻,立刻出来,我要为这位美女主持公道”! 在这时候,我发现了一个问题:为什么这么多人转过身来看着我?眼前的妹子是怎么回事,居然用哀怨的眼神看着我!哦,不对,应该是愤怒的眼神。 我知道,这或许又是我多管闲事了,说不定是碰瓷的。“好了,好了,是我多管闲事,我不管了,你们继续”!

分割结果

我叫琼八蛋,
我已经毕业很多年了,
至于你要问我毕业的大学的话,
非常抱歉,
我很不乐意说,
因为我的大学是非常神圣的,
向别人说的时候我都会忍住。
以前在小学的时候,
很多人都会问我:呃,
蛋啊,
你怎么会取穷八蛋这个名字。
以前还小,
我都很老实的告诉他们:是我爸爸取的。
但是在我长大了以后,
特别是我大学毕业以后,
居然还有美女会我这么无知的问题:蛋蛋,
谁给你取穷八蛋这么丑的名字!
靠!
你鄙视我就好了,
居然还敢鄙视我的名字,
凡是遇到这种情况,
我通常都会回答他:老子姓琼,
老子有八个蛋,
要是有九个蛋老子就取穷九蛋了!
当然我永远不会告诉他们真相,
那就是我老妈在我满月之前就只吃了九个鸡蛋的事实。
尽管有无数的人问过我这个问题,
但是我还是守身如玉……
呃……
不,
是守口如瓶。
尽管大学毕业了这么多年,
我的收入一直不高,
个人觉得这肯定和我毕业的学校有关,
毕竟开办了数千年的大学,
多少可能有些人满为患的隐患。
这天我再一次的来到了镇上,
满街都是香喷喷的味道,
各种小吃,
实在是美味极了。
对,
就是这种香味,
闭着眼睛我都可以闻到这种香味,
我闭着眼睛向前走去。
尽管大街上人满为患,
我还是找到了它,
我都不用睁开眼睛,
就可以咬上去!
“哎呀,
你这个色鬼,
光天化日之下竟然就敢亲我”!
就在准备用餐的时候,
居然有一个女人大叫起色鬼来。
“哼!
色鬼在哪里,
光天化日之下,
成何体统”!
我是个有正义感的人,
面对这样的事情,
我不可能不管,
于是我睁开了眼睛。
“是谁,
到底是谁这么无耻,
立刻出来,
我要为这位美女主持公道”!
在这时候,
我发现了一个问题:为什么这么多人转过身来看着我?
眼前的妹子是怎么回事,
居然用哀怨的眼神看着我!
哦,
不对,
应该是愤怒的眼神。
我知道,
这或许又是我多管闲事了,
说不定是碰瓷的。
“好了,
好了,
是我多管闲事,
我不管了,
你们继续”!

python实现文本分割相关推荐

  1. TXT批量文本分割器Python

    一.软件功能 1.自动识别当前文件夹下的TXT文件并且分割拆分成100M一个文件(需要分割其他大小和格式 稍微修改下代码即可) 2.不会出现分割后乱码或其他编码问题 3.可单独处理一个大文件也可以批量 ...

  2. 用python实现网络查重(python爬取网页文字[网页结构不一致;网页编码格式];txt文本分割;chrome驱动;python计算文章余弦相似度)

    最近做项目有一个小功能是对用户上传的文章进行简单的网络查重.就是搜索特定主题,用这个关键词去在网上搜索文章再爬取.其中也借鉴了其他大佬的代码和文章,文章中会贴出.自己记录以下,以免日后遗忘.主要分为以 ...

  3. 基于PYTHON的超大文本分割工具

    "记事本"作为一款保存信息的载体,基本上每个网民都见过或使用过它.它不但读取方便,使用起来也是得心应手.不过,对于存放有超大数据的TXT文本,我们对它又爱又恨.爱它是因为我们的信息 ...

  4. 文本分割之水平投影法基于OpenCV(python)版实现

    对于如下一张图片,如何将文本区域分割成一行一行的了? 在文本分割领域中有一种很优秀的算法:投影法,包括水平投影法和垂直投影法.本文主要讲述水平投影法,水平投影法可以理解为一束光线从图像的左侧向右边进行 ...

  5. 文本分割之垂直投影法基于OpenCV(python)的实现

    在我的上一篇博客中讲述了水平投影法取出文本行图像的实现,在这里将用垂直投影法对文本行的每个字符进行分割.下图是用水平投影法切割的文本行: 文本分割的原理如下,先用水平投影取出单一文本行,接着使用垂直投 ...

  6. Python实例--文本词频统计

    最近在MOOC跟着北京理工大学的嵩天老师学习Python(https://www.icourse163.org/learn/BIT-268001?tid=1003243006#/learn/annou ...

  7. python输出文本和值_python读取文本中数据并转化为DataFrame的实例

    在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一篇文章写下来. 从纯文本格式文件 "file_in"中读取数据,格式如下: 需要输出成"file_out&quo ...

  8. 用Python 处理文本数据

    用Python 处理文本数据 前言   HI,好久不见,今天是关闭朋友圈的第60天,我是野蛮成长的AC-Asteroid.   人生苦短,我用Python,通过短短两周时间自学,从基础知识到项目实践, ...

  9. bert分词工具-使用Bert自带的WordPiece分词工具将文本分割成单字

    笔者不久前发布过一个中文分字工具,(本文称之为version1.0)该工具是将所有的字符单独分离出来,并以空格隔开.笔者使用该工具分字之后在实体分类任务上的效果很差.原因可能有下. 时间数据经vers ...

  10. 一文教你学会python读取文本及字符串常用操作

    python 读取txt文件 打开支付宝首页搜索'543701491',领取马云的支付宝红包 Python的文本处理是经常碰到的一个问题,Python的txt文件读取中,有三类方法:read().re ...

最新文章

  1. 面试官问:为什么SpringBoot的 jar 可以直接运行?
  2. 京东员工怒怼公司:每天工作到很晚甚至凌晨,你跟我说这是幸福?
  3. Science:若DTC基因检测达2%成年人群,几乎所有人的身份或将无所遁形
  4. xp远程桌面访问 不能复制文件解决办法
  5. 树莓派学习——文件传输
  6. php 管理 mysql 数据库 代码_PHP5对Mysql5的任意数据库表的管理代码示例(三)
  7. java htmlparser 使用教程_HTMLParser使用详解(1)
  8. 巧用计算机辅助培智生,计算机辅助设计答案
  9. python多线程下载多个文件_python多线程下载文件 练习1
  10. 学python可以从事什么工作-学完Python后可以从事哪些工作?
  11. python越学越不懂_为什么那么多自学Python的后来都放弃了,总结以下原因
  12. 高德地图模仿微信发送位置实现拾取坐标
  13. c# 标准正太分布函数_[C#] 查标准正态分布表
  14. 测度论与概率论基础学习笔记8——3.2积分的性质
  15. 如何将图片转成png格式?图片的格式怎么转换
  16. token与refresh token
  17. 【Ubuntu】查询显卡型号
  18. Mysql密码忘记怎么修改?
  19. Python小白到老司机,快跟我上车!基础篇(十八)
  20. XPwn黑客破解秀,16位网红见证黑掉小米

热门文章

  1. Discuz!风格模版初级不完全修改教程
  2. 2020届春招实习面经(含阿里、腾讯、网易、京东、华为、美团、快手、字节跳动)
  3. 开发流程与管理--《10人以下小团队管理手册》读后有感
  4. 《少有人走的路:心智成熟的旅程》读书摘要
  5. 企业预算管理实践:小故事大道理
  6. XCTF-Cat+Bug
  7. imatest白平衡测试结果解析
  8. 【Rosalind】Mortal Fibonacci Rabbits
  9. ERROR - org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:158)] Unable to deliver event.
  10. 立体栅格地图_基于滑动窗口的室内三维立体栅格地图特征点提取方法与流程