python简单的分析文本


import collections
import re#读取tips.txt文件内容，type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:mytips=tip.read().lower()#正则去除非中英文字符，
strip_file=re.sub(r"\W+","",mytips)
print("正则去除非中英文字符:\n{}".format(strip_file))
print()#筛选出所有英文单词
only_enlish=re.findall(r'[a-z]+',mytips)
print('筛选出所有英文单词:\n{}'.format(only_enlish))#筛选出所有的中文
only_chinese=re.sub(r"[a-z1-9\W]+",'',mytips)
only_chinese_split=[c for c in only_chinese]
print('筛选出所有的中文\n{}'.format(only_chinese_split))#如果most_common()参数为空，则按照从高频到低频依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印频率最高的五个字符{}".format(most_comm_word))#sorted（iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序输出most_comm_word{}".format(low_comm_word))#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4）指定值的most_comm_word{}".format(specified_most_comm_word))#转化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print('转化成字典：{}'.format(dict_most_comm_word))#zip在python3中是惰性计算，需要转化成list
word,count=list(zip(*most_comm_word))
print('单独打印word：{}'.format(word))
print("单独打印count:{}".format(count))#defaultdict简单应用
#分析单词出现的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):enlish_dict[v].append(k)
print('统计每个单词出现的位置：{}'.format(enlish_dict))#orderdict简单应用
#单词从a-z进行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print('单词从a-z进行排序:\n{}'.format(order_english_dict))

python简单的分析文本相关推荐

python中文文本分析_python简单的分析文本
import collections import re #读取tips.txt文件内容,type(mytips)=str with open("tips.txt","r ...
python简单练习 -统计文本词频并用柱状图显示
函数功能:统计文本中单词频率,并用柱状图显示前10个最高的单词这里统计的是函数所在文件本身 import turtlecount = 10 data = [] words = [] # y ySca ...
python简单的图像文本数据处理
如何整理下面这样的数据? split()函数可以根据括号中指定的符号对数据进行划分. 如:split(' , ')
NLP实战：利用Python理解、分析和生成文本 | 赠书
导读:本文内容参考自<自然语言处理实战:利用Python理解.分析和生成文本>一书,由Hobson Lane等人所著. 本书是介绍自然语言处理(NLP)和深度学习的实战书.NLP已成为深度 ...
根据词袋模型使用Python实现一个简单的分析句子对相似度的软件
使用词袋模型实现一个简单的分析句子对相似度的软件 1. 实验内容本次实验使用词袋(bag of words)技术,利用词袋模型进行编程并计算了不少于10组句子对的相似度,同时设计了图形界面,可以在界 ...
可以用来分析文本数据的Python工具的完整指南
探索性数据分析是任何机器学习工作流程中最重要的部分之一,自然语言处理也是如此. 但是,应该选择哪些工具来有效地浏览和可视化文本数据? 在本文(Shahul Es最初在 Neptune博客上发布 )中 ...
python实现情感分析_利用python实现简单情感分析
最近选修的大数据挖掘课上需要做关于情感分析的pre,自己也做了一些准备工作,就像把准备的内容稍微整理一下写出来,下次再做类似项目的时候也有个参考. 情感分析是什么? 文本情感分析是指用自然语言处理(N ...
python snownlp情感分析_白杨数说 | 不会做文本情感分析？试试这两个Python包
情感分析是自然语言处理(NLP)领域的一类任务,又称倾向性分析,意见抽取,意见挖掘,情感挖掘,主观分析等,它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程.具体到数据新闻领域,文本情感分 ...
简单数据分布分析及python实现
简单数据分布分析及python实现数据集中趋势分析平均值中位数众数分位数数据离中趋势分析标准差方差数据的分布分析正态分布卡方分布(x^2^分布) t分布 f分布数据集中趋势分析 ...

python简单的分析文本

python简单的分析文本相关推荐

最新文章

热门文章