Python切分文本(将文本文档切分为词列表)
对于一个句子,一种简单的方法是使用split()
a = 'This is an apple. Do you like apple?'
b = a.split()
print(b) # ['This', 'is', 'an', 'apple.', 'Do', 'you', 'like', 'apple?']
可以看到切分结果不错,但标点符号也当成了词的一部分,可以使用正则表达式来切分句子,其中分隔符是除字母,数字外的任意字符串。
import rea = 'This is an apple. Do you like apple?'
b = re.split(r'\W+', a)
print(b) # ['This', 'is', 'an', 'apple', 'Do', 'you', 'like', 'apple', '']
得到的词列表已不包含符号,但是含有空字符串,同时单词也混有大小写,将其改进得到
import rea = 'This is an apple. Do you like apple?'
b = re.split(r'\W+', a)
c = [word.lower() for word in b if len(word) > 0]
print(c) # ['this', 'is', 'an', 'apple', 'do', 'you', 'like', 'apple']
Python切分文本(将文本文档切分为词列表)相关推荐
- python读取文本文档内容并存入列表内_【Python基础】文本文件读写
作者: eavea 发表日期: 2020年04月14日 分类: 后端技术 标签: Python 阅读次数: 3,358 评论数: 0 条 [Python基础]文本文件读写 Python中常用文件读写方 ...
- 用python将中文/汉字写入文本文档或者从文本文档读取中文信息
用python将中文/汉字写入文本文档或者从文本文档读取中文信息 经常有同学碰到通过python无法将汉字信息写入文本,或者无法读取文本里的汉字信息的情况,下面用一种最简单的方式解决这个问题. 写入文 ...
- linux编辑文档windows,1.9vim编辑器linux内核的底层文本编辑器,跟windows系统上的文本文档类似,大部分用这个工具进行文本的编辑,这个工具的操作方式基本上用不到鼠标,多是...
1.9vim编辑器 linux内核的底层文本编辑器,跟windows系统上的文本文档类似,大部分用这个工具进行文本的编辑,这个工具的操作方式基本上用不到鼠标,多是用命令去操作 这个工具分为三种模式:命 ...
- Python批量OCR日语文字图片并输出内容至文本文档~(调用百度OCRapi)
如题~对应文字游戏录屏制作字幕的第二模块 from aip import AipOcr import os import time''' Author: AleryXiao Date: 2022.10 ...
- 因为某种原因阻止文本引擎初始化_文本文档的协同编辑实现
背景 atom 编辑器新增一个 teletype 的功能,可以实现多人在线编辑代码.效果看起来挺炫酷,想了解一下是怎么实现的,于是研究了一下. 抽象一下文本文档的协同编辑这个问题,就是同步多个设备之间 ...
- 在线文本文档txt编辑器_审查了6位在线文档和文本编辑者
在线文本文档txt编辑器 Who wants to limit himself to one computer nowadays? Say hello to online editors, where ...
- python读取log文件_python之文件的读写(文本文档,log文件)
1 #文件打开方式,文件打开是有返回值的 2 #open函数 3 #file_object = open(file_name,access_mode='r') 4 #file_name 必填形参, a ...
- 如何将多个文本文档合并到一个文档中?
2019独角兽企业重金招聘Python工程师标准>>> 在日常工作中,我们需要将多个文本文档合并到一个中,接下来将介绍一种批处理的方法. 工具/原料 文本文档 方法/步骤 如图所示, ...
- 从TXT文本文档向Sql Server中批量导入数据
因为工作的需要,近期在做数据的分析和数据的迁移.在做数据迁移的时候需要将原有的数据导入到新建的数据库中.本来这个单纯的数据导入导出是没有什么问题的,但是客户原有的数据全部都是存在.dat文件中的.所以 ...
最新文章
- MySQL如何快速插入数据
- 泛海精灵的用户分析:补充【Song Xie】
- websettings 哪里设置_云浮超级电容用石墨哪里买,可膨胀石墨_青岛天源达
- 基于SpringJDBC 实现关键功能-QueryRuleSqlBulider
- 你未必知道的49个CSS知识点
- 用32定时器让电机缓慢转动_实验三 步进电机原理及应用
- java中long类型转换为int类型
- C++:究竟还有没有未来?
- 蔚来汽车发布声明:“蔚来EC6爆炸”为谣言
- 设计灵感|C4D在海报中可以这样应用
- microsoft azure Media Services 媒体服务解决方案
- MAX30102血氧模块的原理及编程
- 华为荣耀8C安装Google play store的记录
- windows 软件界面跑出屏幕外的处理方法
- 7-19 统计人数(2008慈溪) (100分)
- A1、A2、A3、A4纸都是多大尺寸
- C语言基础语法(初学者必看)
- 架构--系统的可扩展性
- 什么软件运用计算机处理图像,平面设计中计算机图形图像处理软件的运用探究...
- 树莓派裸板linux,树莓派裸板开发操作系统 一
热门文章
- LeetCode第 227 场周赛题解
- 论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset
- 【社招/实习】百度大搜索招聘NLP、搜索方向算法工程师!
- 论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述
- Android官方开发文档Training系列课程中文版:Activity测试之创建运行测试
- 一个牛人给JAVA初学者的建议。虽然岁月漫长,但仍值得等待
- java内存溢出总结(1.8)
- js 控制页面跳转的5种方法
- python 几种常用测试框架
- zbb20170228_spring_tdt