对于一个句子,一种简单的方法是使用split()

a = 'This is an apple. Do you like apple?'
b = a.split()
print(b) # ['This', 'is', 'an', 'apple.', 'Do', 'you', 'like', 'apple?']

可以看到切分结果不错,但标点符号也当成了词的一部分,可以使用正则表达式来切分句子,其中分隔符是除字母,数字外的任意字符串。

import rea = 'This is an apple. Do you like apple?'
b = re.split(r'\W+', a)
print(b) # ['This', 'is', 'an', 'apple', 'Do', 'you', 'like', 'apple', '']

得到的词列表已不包含符号,但是含有空字符串,同时单词也混有大小写,将其改进得到

import rea = 'This is an apple. Do you like apple?'
b = re.split(r'\W+', a)
c = [word.lower() for word in b if len(word) > 0]
print(c) # ['this', 'is', 'an', 'apple', 'do', 'you', 'like', 'apple']

Python切分文本(将文本文档切分为词列表)相关推荐

  1. python读取文本文档内容并存入列表内_【Python基础】文本文件读写

    作者: eavea 发表日期: 2020年04月14日 分类: 后端技术 标签: Python 阅读次数: 3,358 评论数: 0 条 [Python基础]文本文件读写 Python中常用文件读写方 ...

  2. 用python将中文/汉字写入文本文档或者从文本文档读取中文信息

    用python将中文/汉字写入文本文档或者从文本文档读取中文信息 经常有同学碰到通过python无法将汉字信息写入文本,或者无法读取文本里的汉字信息的情况,下面用一种最简单的方式解决这个问题. 写入文 ...

  3. linux编辑文档windows,1.9vim编辑器linux内核的底层文本编辑器,跟windows系统上的文本文档类似,大部分用这个工具进行文本的编辑,这个工具的操作方式基本上用不到鼠标,多是...

    1.9vim编辑器 linux内核的底层文本编辑器,跟windows系统上的文本文档类似,大部分用这个工具进行文本的编辑,这个工具的操作方式基本上用不到鼠标,多是用命令去操作 这个工具分为三种模式:命 ...

  4. Python批量OCR日语文字图片并输出内容至文本文档~(调用百度OCRapi)

    如题~对应文字游戏录屏制作字幕的第二模块 from aip import AipOcr import os import time''' Author: AleryXiao Date: 2022.10 ...

  5. 因为某种原因阻止文本引擎初始化_文本文档的协同编辑实现

    背景 atom 编辑器新增一个 teletype 的功能,可以实现多人在线编辑代码.效果看起来挺炫酷,想了解一下是怎么实现的,于是研究了一下. 抽象一下文本文档的协同编辑这个问题,就是同步多个设备之间 ...

  6. 在线文本文档txt编辑器_审查了6位在线文档和文本编辑者

    在线文本文档txt编辑器 Who wants to limit himself to one computer nowadays? Say hello to online editors, where ...

  7. python读取log文件_python之文件的读写(文本文档,log文件)

    1 #文件打开方式,文件打开是有返回值的 2 #open函数 3 #file_object = open(file_name,access_mode='r') 4 #file_name 必填形参, a ...

  8. 如何将多个文本文档合并到一个文档中?

    2019独角兽企业重金招聘Python工程师标准>>> 在日常工作中,我们需要将多个文本文档合并到一个中,接下来将介绍一种批处理的方法. 工具/原料 文本文档 方法/步骤 如图所示, ...

  9. 从TXT文本文档向Sql Server中批量导入数据

    因为工作的需要,近期在做数据的分析和数据的迁移.在做数据迁移的时候需要将原有的数据导入到新建的数据库中.本来这个单纯的数据导入导出是没有什么问题的,但是客户原有的数据全部都是存在.dat文件中的.所以 ...

最新文章

  1. MySQL如何快速插入数据
  2. 泛海精灵的用户分析:补充【Song Xie】
  3. websettings 哪里设置_云浮超级电容用石墨哪里买,可膨胀石墨_青岛天源达
  4. 基于SpringJDBC 实现关键功能-QueryRuleSqlBulider
  5. 你未必知道的49个CSS知识点
  6. 用32定时器让电机缓慢转动_实验三 步进电机原理及应用
  7. java中long类型转换为int类型
  8. C++:究竟还有没有未来?
  9. 蔚来汽车发布声明:“蔚来EC6爆炸”为谣言
  10. 设计灵感|C4D在海报中可以这样应用
  11. microsoft azure Media Services 媒体服务解决方案
  12. MAX30102血氧模块的原理及编程
  13. 华为荣耀8C安装Google play store的记录
  14. windows 软件界面跑出屏幕外的处理方法
  15. 7-19 统计人数(2008慈溪) (100分)
  16. A1、A2、A3、A4纸都是多大尺寸
  17. C语言基础语法(初学者必看)
  18. 架构--系统的可扩展性
  19. 什么软件运用计算机处理图像,平面设计中计算机图形图像处理软件的运用探究...
  20. 树莓派裸板linux,树莓派裸板开发操作系统 一

热门文章

  1. LeetCode第 227 场周赛题解
  2. 论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset
  3. 【社招/实习】百度大搜索招聘NLP、搜索方向算法工程师!
  4. 论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述
  5. Android官方开发文档Training系列课程中文版:Activity测试之创建运行测试
  6. 一个牛人给JAVA初学者的建议。虽然岁月漫长,但仍值得等待
  7. java内存溢出总结(1.8)
  8. js 控制页面跳转的5种方法
  9. python 几种常用测试框架
  10. zbb20170228_spring_tdt