import collections
import re#读取tips.txt文件内容,type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:mytips=tip.read().lower()#正则去除非中英文字符,
strip_file=re.sub(r"\W+","",mytips)
print("正则去除非中英文字符:\n{}".format(strip_file))
print()#筛选出所有英文单词
only_enlish=re.findall(r'[a-z]+',mytips)
print('筛选出所有英文单词:\n{}'.format(only_enlish))#筛选出所有的中文
only_chinese=re.sub(r"[a-z1-9\W]+",'',mytips)
only_chinese_split=[c for c in only_chinese]
print('筛选出所有的中文\n{}'.format(only_chinese_split))#如果most_common()参数为空,则按照从高频到低频依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印频率最高的五个字符{}".format(most_comm_word))#sorted(iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序输出most_comm_word{}".format(low_comm_word))#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4)指定值的most_comm_word{}".format(specified_most_comm_word))#转化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print('转化成字典:{}'.format(dict_most_comm_word))#zip在python3中是惰性计算,需要转化成list
word,count=list(zip(*most_comm_word))
print('单独打印word:{}'.format(word))
print("单独打印count:{}".format(count))#defaultdict简单应用
#分析单词出现的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):enlish_dict[v].append(k)
print('统计每个单词出现的位置:{}'.format(enlish_dict))#orderdict简单应用
#单词从a-z进行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print('单词从a-z进行排序:\n{}'.format(order_english_dict))

python简单的分析文本相关推荐

  1. python中文文本分析_python简单的分析文本

    import collections import re #读取tips.txt文件内容,type(mytips)=str with open("tips.txt","r ...

  2. python简单练习 -统计文本词频并用柱状图显示

    函数功能:统计文本中单词频率,并用柱状图显示前10个最高的单词 这里统计的是函数所在文件本身 import turtlecount = 10 data = [] words = [] # y ySca ...

  3. python简单的图像文本数据处理

    如何整理下面这样的数据? split()函数可以根据括号中指定的符号对数据进行划分. 如:split(' , ')

  4. NLP实战:利用Python理解、分析和生成文本 | 赠书

    导读:本文内容参考自<自然语言处理实战:利用Python理解.分析和生成文本>一书,由Hobson Lane等人所著. 本书是介绍自然语言处理(NLP)和深度学习的实战书.NLP已成为深度 ...

  5. 根据词袋模型使用Python实现一个简单的分析句子对相似度的软件

    使用词袋模型实现一个简单的分析句子对相似度的软件 1. 实验内容 本次实验使用词袋(bag of words)技术,利用词袋模型进行编程并计算了不少于10组句子对的相似度,同时设计了图形界面,可以在界 ...

  6. 可以用来分析文本数据的Python工具的完整指南

    探索性数据分析是任何机器学习工作流程中最重要的部分之一,自然语言处理也是如此. 但是,应该选择哪些工具来有效地浏览和可视化文本数据? 在本文(Shahul Es最初在 Neptune博客 上发布 )中 ...

  7. python实现情感分析_利用python实现简单情感分析

    最近选修的大数据挖掘课上需要做关于情感分析的pre,自己也做了一些准备工作,就像把准备的内容稍微整理一下写出来,下次再做类似项目的时候也有个参考. 情感分析是什么? 文本情感分析是指用自然语言处理(N ...

  8. python snownlp情感分析_白杨数说 | 不会做文本情感分析?试试这两个Python包

    情感分析是自然语言处理(NLP)领域的一类任务,又称倾向性分析,意见抽取,意见挖掘,情感挖掘,主观分析等,它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程.具体到数据新闻领域,文本情感分 ...

  9. 简单数据分布分析及python实现

    简单数据分布分析及python实现 数据集中趋势分析 平均值 中位数 众数 分位数 数据离中趋势分析 标准差 方差 数据的分布分析 正态分布 卡方分布(x^2^分布) t分布 f分布 数据集中趋势分析 ...

最新文章

  1. 技术分享:如何避免ajax重复请求?
  2. 告别ASP.NET操作EXCEL的烦恼
  3. bzoj3895: 取石子(博弈论,记忆化搜索)
  4. Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决...
  5. PostgreSQL学习总结(6)—— PostgreSQL 模式(SCHEMA)详解
  6. Python MySQL示例教程
  7. Django 2.1.3 文档
  8. 四阶龙格库塔法的基本思想_经典四阶龙格库塔法解1阶微分方程组.doc
  9. 快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
  10. html广告清理,谷歌浏览器插件-清除CSDN广告
  11. pos机Project v1.1
  12. 景区门票预约系统_景区门票预订系统有哪些功能
  13. linux中ess33没有IP地址问题
  14. 2022-08-13 LZO使用方法
  15. win7ie11调用java失败,win7纯净版系统下ie11无法加载java插件
  16. IDEA连接数据库,自定义Groovy 脚本
  17. STM32系统时钟设置(标准库)
  18. 基于ssm的汽车租赁管理系统 (源代码+数据库)601
  19. 组合式专用铣齿机床设计(论文 CAD图纸)
  20. 《断章》----卞之琳

热门文章

  1. 关于微信安卓版计步作弊器
  2. SpringBoot(Properties)
  3. Python学习心得(七) 深入理解threading多线程模块
  4. [Bhatia.Matrix Analysis.Solutions to Exercises and Problems]ExI.1.1
  5. ASP.NET数据绑定控件数据项中的服务器控件注册JS方法
  6. RHEL6入门系列之三十一,管理计划任务
  7. C语言中的逗号操作符
  8. 在PDA设备上安装和部署 SQL Server Compac 3.5(官方版)
  9. 2 HTTP和HTTPS
  10. [Flex] Flex 控件类 的自定义事件添加