遇到一个小需求,需将文本转换为单个文字(词)的列表,就是中文按照每个汉字分为一个词,英文每个词为一个文字,进行分享一个paperclub的处理方式,仅供大家参考。

1. 先看效果:

示例1:

示例2: 

 2. 方法:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @ Date    : 2023/1/29 9:55
# @ Author  : paperClub
# @ Email   : paperclub@163.com
# @ Site    :import redef text2words(text:str):"""文档转单个字,可用于统计字数:param text: 文本:return: List"""words = []punctuation_reg = r'~`!#$%^&*()_+-=|\';":/.,?><~·!@[\\]【\\】#¥%……&*()——+-=“:’;、。,?》《{}'chinese_digit_reg = r'[\u4e00-\u9fa5]|[\d]+' # 中文及数字english_reg = r'[a-zA-Z]+' # 英文text = re.sub(punctuation_reg, ' ', text).lower()  # 去掉标点符号text = re.sub("\W", ' ', text)  # 去除特殊符号cn_words = re.findall(chinese_digit_reg, text)en_words = re.findall(english_reg, text)if cn_words:words.extend(cn_words)del cn_wordsif en_words:words.extend(en_words)del en_wordsdel textreturn words

3. 效果测试:

--------------------------------------
text:  呈现2D图像或数据的核心就是一个数据降维。我们知道每个词或图片都会有相应的隐含意义,这个意义也就是特征向量,比如 图1 第三行左侧的图像,我们看到一张有海水、蓝天、白云和桥面的图像,这些词都会通过向量的形式隐含的呈现出来,如果两张图像代表的内容足够相似或相近,那么他们的特征也同样会在空间上非常接近, 比如 图1 第三行的两张图像内容接近,因此在图2 中导致两张图像的空间向量重合在一起了。words:  ['呈', '现', '2', '图', '像', '或', '数', '据', '的', '核', '心', '就', '是', '一', '个', '数', '据', '降', '维', '我', '们', '知', '道', '每', '个', '词', '或', '图', '片', '都', '会', '有', '相', '应', '的', '隐', '含', '意', '义', '这', '个', '意', '义', '也', '就', '是', '特', '征', '向', '量', '比', '如', '图', '1', '第', '三', '行', '左', '侧', '的', '图', '像', '我', '们', '看', '到', '一', '张', '有', '海', '水', '蓝', '天', '白', '云', '和', '桥', '面', '的', '图', '像', '这', '些', '词', '都', '会', '通', '过', '向', '量', '的', '形', '式', '隐', '含', '的', '呈', '现', '出', '来', '如', '果', '两', '张', '图', '像', '代', '表', '的', '内', '容', '足', '够', '相', '似', '或', '相', '近', '那', '么', '他', '们', '的', '特', '征', '也', '同', '样', '会', '在', '空', '间', '上', '非', '常', '接', '近', '比', '如', '图', '1', '第', '三', '行', '的', '两', '张', '图', '像', '内', '容', '接', '近', '因', '此', '在', '图', '2', '中', '导', '致', '两', '张', '图', '像', '的', '空', '间', '向', '量', '重', '合', '在', '一', '起', '了', 'd']
--------------------------------------
text:  We're talking about a figure in the low hundreds.
words:  ['we', 're', 'talking', 'about', 'a', 'figure', 'in', 'the', 'low', 'hundreds']
--------------------------------------
text:
分享:一键完成老照片颜色修复,超级简单,支持网络图片和本地上传图片两种方法。paperClub发表于2022-09-12 10:54。words:  ['分', '享', '一', '键', '完', '成', '老', '照', '片', '颜', '色', '修', '复', '超', '级', '简', '单', '支', '持', '网', '络', '图', '片', '和', '本', '地', '上', '传', '图', '片', '两', '种', '方', '法', '发', '表', '于', '2022', '09', '12', '10', '54', 'paperclub']
--------------------------------------
text:  Who Uses Infer? CodeAI JD.com Marks and Spencer Money Lover Netcetera OLA Sky Tile Vuo wolfSSL Does your project use Infer? Add it to this list witha pull request!
words:  ['who', 'uses', 'infer', 'codeai', 'jd', 'com', 'marks', 'and', 'spencer', 'money', 'lover', 'netcetera', 'ola', 'sky', 'tile', 'vuo', 'wolfssl', 'does', 'your', 'project', 'use', 'infer', 'add', 'it', 'to', 'this', 'list', 'witha', 'pull', 'request']
--------------------------------------

如何将中英文混合短文拆分成单个词和文字相关推荐

  1. 将一串数字拆分成单个数字

    今天面试遇到个小问题,难道了我,把一串数字拆分成单个数字,呵呵,不用循环,做个记录,免得以后忘记了 使用toCharArray() String str = "123456"; c ...

  2. 快速把整篇英语短文拆分成各个单词

    快速把整篇英语短文拆分成各个单词 1.复制短文到word上 2.使用替换,把空格替换成^p就好了 替换之后 然后复制进有道词典 就不用一个一个查单词啦

  3. java 字符串拆分成单个字符放到 list 集合

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到教程. 解决方法: 例如把"我是谁"拆开放到list中 public static vo ...

  4. 一串数字怎么拆分成单个数字

    先对字符串tuple为元组形式再根据长度依次输出 为了美观 end用空格隔开

  5. 使用awk处理多行fasta文件拆分为单个fasta文件,并去掉后缀^M

    大文件:31万个序列(我看的文章里面说一小时处理100条序列,这里我用了半个小时) 代码如下:把mulfa.fasta文件拆分成单个fasta文件 awk '{if($0~/^>/)a=$0; ...

  6. 批量将一个 PPT 幻灯片文件按固定页数拆分成多个幻灯片文件

    概要:对于经常写 PPT 的人来说,经常会与 PPT 幻灯片打交道.如果一个 PPT 幻灯片文件有很多页数,那么有没有办法能够将他们拆分成多个 PPT 幻灯片文件呢?这样每一个独立的 PPT 文件的页 ...

  7. 中英文怎么算 字符长度_如何将混合了中英文及不同数量空格的文本,快速拆分成多列...

    前段时间学员小D咨询到:有什么简便的方法,可以将将混合了中英文及不同数量空格的文本,快速拆分成多列?下图所示是小D的问题: 小D需要将这列数据拆分成如下图所示的4列数据: 刚一开始看到这个表格的时候, ...

  8. python拆分excel的sheet为单文件_WPS 2019 多个sheet表拆分成独立的excel文件

    参考: 场景:将多个sheet表拆分成独立的excel文件 一.安装VB工具: 默认情况下:wps -- 开发工具 --- VB 编辑器是灰选状态(即不可用状态),此时需要先安装vb工具:VBA Fo ...

  9. mysql 按日期拆分成多条记录_mysql性能优化2 设计规范 设计原则 结构优化 拆分 配置优化...

    一.MYSQL数据库设计规范 1.数据库命名规范 a.采用26个英文字母(区分大小写)和0-9的自然数(经常不需要)加上下划线'_'组成; b.命名简洁明确(长度不能超过30个字符); c.例如:us ...

最新文章

  1. 搞不懂为啥都要去字节跳动,进阿里不香吗?
  2. 基于jquery的无刷新表格分页
  3. golang struct 动态创建
  4. java jquery基础_day20:JQuery基础(超系统的JavaWEB全套教程)
  5. leetcode 188. 买卖股票的最佳时机 IV(dp)
  6. [css] word-wrap、word-break和white-space有什么区别?
  7. SQLServer之深度分析Insert
  8. ospf 环回口的路由条目_华为OSPF基础实验
  9. VC++工作笔记0003---C++中的explicit关键字
  10. 怎么用shell ssh,然后再exit?
  11. linux系统丢失用户环境文件夹,Linux 用户环境变量丢失故障及解决
  12. [置顶] VS自带工具:dumpbin的使用
  13. 1个开发如何撑起一个过亿用户的小程序
  14. DSO(Direct Sparse Odometry)
  15. 【算法升级】仅有85K个参数的开源人脸检测算法
  16. adams2015怎么把工具栏打开_PDF旋转后保存,打开为什么还是旋转前的方向?
  17. python说句心里话a_python第一周作业
  18. ImageNet中英文类别对照
  19. Primefaces使用小结
  20. CTF线下AWD攻防步骤总结

热门文章

  1. Clog——基于C语言的日志系统设计
  2. notepad++ 匹配正则表达式数字替换
  3. 软工网络15团队作业1——团队组队展示
  4. Jstack线程状态BLOCKED/TIMED_WAITING/WAITING解释
  5. WPF之DataGrid控件使用
  6. 关于返校后虚拟机无法联网的问题
  7. 深度篇——目标检测史(二) 细说 R-CNN 目标检测
  8. 设计模式日常学习(三)
  9. 华为HCIA-RS知识梳理(上)
  10. window安装RabbitMQ 环境配置