一篇文章,先转为单词为元素的列表。

分解时遇到的第一个问题,就是如果去除各类标点符号。

import re

line='asdf fjdk;;;; s afred,,fjek.asdf, foo^ sdkk'

re.split(r'[;^,.\s]*',line) # 表示后面的字符串没有转义符。【这里面是要作为分隔的各类符号】,外面的*表示重复也算。

运算结果,['asdf', 'fjdk', 'afred', 'fjek', 'asdf', 'foo', 'sdkk']

在得到分解LIST后,就可以进行单词分析了。要用到Counter工具。

words = [

'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',

'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',

'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',

'my', 'eyes', "you're", 'under'

]

from collections import Counter

word_counts = Counter(words)

top_three = word_counts.most_common(3)

print(top_three)

# Outputs [('eyes', 8), ('the', 5), ('look', 4)]

用正则表达式清除各类符号相关推荐

  1. 正则表达式的特殊符号和字符详细解析

    正则表达式的特殊符号和字符,即所谓的元字符,它给了正则表达式强大的功能和灵活性,下面列出常见的符号和字符. 表示法 描述 正则表达式实例 字符     literal 匹配文本字符串的字面值liter ...

  2. VFP 返回清除半角符号的字符串

    * 建立时间: 2020-02-16 * 最后修改时间: * 说明:对文本清除半角符号的方法,使用了strtran()20200216 * 方法参数说明:tcchar 要替换的字符串 * 返回值类型: ...

  3. php用正则去掉一些固定字符,用PHP正则表达式清除字符串的空白

    我们经常会处理来自用户输入或从数据库中读取的数据,可能在你的字符串中有多余的空白或制表符,回车等.存储这些额外的字符是有点浪费空间的. 如果您想要去掉字符串开始和结束的空白可以使用PHP内部函数tri ...

  4. 正则表达式之全部符号解释

    发表时间:2006-4-13 10:16:00 字符 描述 " 将下一个字符标记为一个特殊字符.或一个原义字符.或一个 向后引用.或一个八进制转义符.例如,'n' 匹配字符 "n& ...

  5. 正则表达式全部特殊符号

    字符  描述 \  将下一个字符标记为一个特殊字符.或一个原义字符.或一个 向后引用.或一个八进制转义符.例如,'n' 匹配字符 "n".'\n' 匹配一个换行符.序列 '\\' ...

  6. 正则表达式 元字符/元符号意义

    字符类.单个字符和数字   元字符/元符号 匹配情况 * 匹配出换行符外的任意字符 [a-z0-9] 匹配括号中的字符集中的任意字符 [^a-z0-9] 匹配任意不在括号中的字符集中的字符 \d 匹配 ...

  7. 在python中使用正则表达式实现中英文符号互换

    在进行中文信息处理时,经常会发现有人错误地使用了英文半角的标点符号,给下一步处理造成一些麻烦.如果逐个地判断(使用循环方法)后进行替换,是一件非常费时费力的事情:当出现新的情况时,进行程序的更新也比较 ...

  8. Python 正则表达式各种特殊符号 重点

    Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. r ...

  9. 正则表达式语法正则表达式匹配特殊符号

    < >' " | \ + % java正则表达式不包含特殊字符 ^'/\"()@$%^*<>&? 这两条正则表达,正则表达式 [^]这个就是用来表示 ...

  10. .Net(C#)用正则表达式清除HTML标签(包括script和style),保留纯本文(UEdit中编写的内容上传到数据库)...

    去官网下载,本Demo用的MVC模式 下载地址:http://ueditor.baidu.com/website/download.html 加入文件夹中的结构: 引入了函数公式的图标: @{View ...

最新文章

  1. ewebeditor编辑器ASP/ASPX/PHP/JSP版本漏洞利用总结及解决方法
  2. linux中如何查看某一进程的启动时间
  3. python下requests的安装、测试、入门资料、官方资料
  4. hibernate的HQL查询语言总结
  5. 16_clickhouse,HDFS引擎,JDBC引擎
  6. [轉]VS2010 SP1 TFS 2010 SP1 官方正式版下载
  7. 重定义 不同的基类型_镍及铁镍基耐蚀合金高温合金哈氏合金镍基合金之第一篇概述...
  8. 如何在Windows 10中将您喜欢的设置固定到开始菜单
  9. 动漫风格迁移——AnimeGANv2的实现【复现】
  10. hdu5927Auxiliary Set
  11. mosaic数据增强_YoloV4当中的Mosaic数据增强方法(附代码详细讲解)
  12. 校内网脱胎“人人”能成大器
  13. Java视频教程下载地址汇总
  14. 实用供暖通风空调设计手册 第三版_从设计到施工,设计师必知的工艺材料知识都在这里!...
  15. win10安装visio2010出错_win10 office2013安装错误1907解决方法
  16. 10个程序员可以接私活的平台和一些建议
  17. phyton方面相关书籍
  18. 使用MQTTX 建立连接报Error: Connection refused: Not authorized 未授权
  19. 云宏CTO张国强:云宏超融合大数据一体机,中国云数一体化神器!
  20. 使用 ava 和 jsdom 做前端测试

热门文章

  1. java求水电费_基于jsp的水电费管理系统-JavaEE实现水电费管理系统 - java项目源码...
  2. c# oracle 中文列名,sql中中文列名
  3. 2 机器学习基本概念
  4. 135行实现CRUD功能(PHP)
  5. Elasticsearch 7.X 拼音分词器 pinyin 使用
  6. 微信网页设置标题title
  7. 360路由器v2刷第三方固件_不走弯路:小米路由器3G 刷Padavan固件简单教程
  8. 基于SSM框架和JSP的房屋租赁、合同签订系统
  9. html在下划线上加文本框,在word文本框中如何添加下划线
  10. 零基础步入数据分析岗,应该怎么开始?