数据分析入门与实战  公众号: weic2c

从用python实现分析数据的一个完整过程。以下着重几个python的moudle的运用“pandas”,"“wordcloud”,“matlibplot”;

1、导入数据,看看数据的结构内容:

import pandas as pd
mytext = pd.read_csv(r'F:\kaggle data\2016-us-presidential-debates\test.csv',encoding = 'iso-8859-1')

>>> mytext.head(2) ######看看数据的结构Line   Speaker                                               Text  \
0     1      Holt  Good evening from Hofstra University in Hempst...
1     2  Audience                                         (APPLAUSE)   Date
0  2016/9/26
1  2016/9/26  

2、清洗数据(包括剔除异常数据,新增必要字段,以及简单的字段为空的处理)

text = mytext.iloc[7:26,:].reset_index(drop=True) #行操作:前面几行是寒暄不用具体看所以删除前面7行

del text['Date'] #列操作:删除Date列## text.insert(3,"新加列",新加列的数值)

3、制作各个candidate的言论的词云图;

import matplotlib.pyplot as plt
from wordcloud import WordCloud   ##词云库

import nltkfrom nltk.corpus import stopwords  ##分词库

stopwords =set(stopwords("english"))stopwords |={"will","yes"}
words = " ".join((text.Speaker=='Clinton').['Text'])##将希拉里的发言汇集起来

cloud =WordCloud(background_color="white",width=3000,height=2500, stopwords=stopwords).generate(words)plt.figure(1,figsize=(8,8))plt.imshow(cloud)plt.show()

ps:这里只是做了个简单的可视化,可以自己尝试

4、进一步挖掘数据内容【ex:此前美国媒体反映在美国竞选第一次辩论时,川普经常被打断的现象严重,我们可以用数据来观察这一现象】

trump=[3,5,7] #'Making laugh','Making applaud','Be interrupted'clinton=[3,3,2] #'Making laugh','Making applaud','Be interrupted'fig,ax=plt.subplots()
width=0.35rects1 = ax.bar(ind,trump,width,color='r')
tects2 = ax.bar(ind+width,clinton,width,color='y')
ax.set_ylabel('Counts')
ax.set_title('Counts of behavior of mediator and audience')
ax.set_xticks(ind)
ax.set_xticklabels(('Making laugh','Making applaud','Be interrupted'),rotation =45)
plt.show()

根据这个观点然后去挖掘可以看到川普频繁被打断,其实后面还可以挖挖,川普在说什么内容的时候被打断(同样可以类似上面的词云的操作,有兴趣可以试下)。

公众号: weic2c   

据分析入门与实战


长按图片,识别二维码,点关注

python 数据分析--2016美国竞选辩论可视化相关推荐

  1. Python数据分析:美国警察枪击案EDA分析

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python实用宝典 ,作者:肯德 前言 2014年在密苏里州一名叫做弗格森(Fer ...

  2. python数据分析pandas画图_Pandas数据可视化基础绘图教程

    众所周知,Pandas是基于Python平台的大数据分析与处理的利器.在数据为王的时代,想要掌握数据分析能力,学会Pandas数据可视化工具是十分重要的.本文将带领大家一步一步学习Pandas数据可视 ...

  3. 【Python数据分析】美国某州牛油果销售量数据集分析

    数据集中的一些相关列 data 观察日期 Average Price 平均价格 type 类型,常规或有机 year 年份 region 观察的城市 Total Volume 销售总数 Total/S ...

  4. 泰坦尼克号python数据分析统计服_Python-数据可视化案例分析之泰坦尼克号(二)...

    在第一节"Python-数据清洗与分析案例之泰坦尼克号(一)"网址:https://www.lixdx.cn/archives/93 中进行了数据清洗与缺失值填充,接下来进行数据可 ...

  5. python数据分析实战项目—运用matplotlib可视化分析10000条北京各大区二手房区域信息(附源码)

    文章目录 开发工具 数据内容 实现代码 运行效果 10000条二手房信息下载地址 总结 开发工具 python版本:Python 3.6.1 python开发工具:JetBrains PyCharm ...

  6. 【数据分析入门】python数据分析全过程梳理与代码实现

    文章目录 数据分析 数据获取 探索分析与可视化 预处理理论 分析建模 评估模型 数据分析 数据获取 [数据分析入门]python数据分析之数据获取方法 探索分析与可视化 [数据分析入门]python数 ...

  7. 学习python数据分析的30个练手数据+4个数据集网站

    前几天发了一个博文:懂点excel作图, 怎么让pyechart作的图更具"职场范"呢?丨pyechart工作作图模板, 一不小心上了热榜, 感谢小伙伴们的支持, 以后会多总结发更 ...

  8. Python数据分析实战,,美国总统大选数据可视化分析[基于pandas]

    目录 前言 一.任务详情 二.数据集来源 三.实现过程 四.运行代码 前言 在学习Python数据分析的过程中,是离不开实战的. 今天跟大家带来数据分析可视化经典项目,美国总统大选数据可视化分析,希望 ...

  9. Python数据分析系列(2)——美国纽约皇后区空气质量分析

    感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 天善智能社区地址:https://www. ...

最新文章

  1. 横向瀑布流android,RecyclerView实现瀑布流布局
  2. 最新消息!阿里四舍五入无限期延迟复工,字节跳动、腾讯......等企业也再次延迟!...
  3. 2017-2018-1 2015335 《信息安全系统设计基础》 第4周课上实践 (新补的,但不完整)...
  4. ASP.NET中验证控件的使用
  5. linux卸载minicom,ubuntu下minicom超级终端的使用方法
  6. MAC启动redis的目录
  7. react学习(16)---getFieldDecorator赋值
  8. python-字符串基础
  9. aix7.1安装12c执行root.sh无法启动ohasd服务案例
  10. Java Programming Review 02
  11. 中小企业成本的会计核算方法
  12. 位置信息、定位技术与位置服务
  13. MuMu模拟器连接AndroidStudio脚本
  14. 如何利用计算机隐藏文件,如何查找隐藏的计算机文件夹
  15. 实体店运用互联网思维进行客户裂变,不到8个月净赚2000万
  16. 英语口语练习三十五之To tell the truth... 老实说……
  17. 分子重构技术_2017年诺贝尔化学奖冷冻电镜|三维重构生物分子
  18. 单相半波可控整流电路实验报告matlab,单相桥式全控整流电路MATLAB仿真 实验报告(上).doc...
  19. 简述 Mux VLAN 的作用与原理
  20. Eagle 设计师收图利器

热门文章

  1. js实现侧边栏信息展示效果
  2. 20个令人称赞的以办公环境为背景的网站作品
  3. Session分三级做处理。
  4. Mikogo新版本已支持Linux系统
  5. 重新配置Domino服务器
  6. JavaScript就这么回事 (JS基础知识整理)
  7. 一道自创的招聘测试题
  8. hashset如何检查重复_如何使用 C# 中的 HashSet
  9. 基于matlab的谱估计,基于MATLAB的功率谱估计实验.doc
  10. php.ini添加的变量读取,PHP5 在扩展里使用 INI 指令(直接添加和配合全局变量两种方式)...