2017年11月份已经离我们而去,在过去的11月份我们也许经历了双十一的剁手,也可能亲眼看见了别人剁手。11月份的北京大兴区发生了”11·18”重大火灾,国内多家幼儿园也多次上了头条,学前教育引起广大重视等等,但是这些事情到底在新闻媒体中出现的频率是有多少呢?11月份又发生了哪些大事呢?且待我用数据告诉你。大数据时代,数据最能体现实际情况,那就开始吧。

为了给大家提供可靠直观的信息,我决定抓取中国新闻网社会新闻版块(http://www.chinanews.com/society.shtml)11月份的所有新闻数据,之所以选取中国新闻网的数据是因为中国新闻网的新闻质量权威性相对较高。然后我将用数据可视化的图表为大家更加形象的呈现。为了证明我的数据是真实可靠的,下图是我在抓取过程中的一张截图。截止到11月30日中午12点,我总共抓取了约3339条新闻数据,总计大约411万字,在txt文档里大约11M,详细见图2,平均大约每天111多条新闻啊,这个数据量还是可以的,同时也为新闻工作者们心疼3秒钟,要知道这只是中国新闻网的一个社会新闻版块啊,哈哈哈......

拿到这些数据我们要怎么办呢?我想知道热点事件是什么?哪些地方的热点事件最多?诸如此类的问题,我们当然可以将这些文章都看了,然后来得到一个整体的影响,但作为承担着共建我们伟大复兴中国梦的新时代计算机信息化人才,我怎么能采取如此低效的方式呢?(此处请允许小编露出八颗大牙的微笑)我将这包含着这411万字的新闻数据文档,通过计算机智能分词系统,然后经过一系列操作(此处省略若干字),毕竟我们在乎的是结果,这期间乏味的工作,小编已经做了,最后我得到了大约18万8千的关键字数据。

如下图所示,大家有没有注意到一个熟悉的幼儿园出现在数据集中,而且频次很高,这在某种程度上证明我们数据还是比较准确的,是不是很期待接下来的会有什么结果,请慢慢往下看。

为了可视化的展现这些数据,通过百度的echarts可以动态的交互的将数据以各种形式显示在网页上,但是为了在这里公众号上显示,这里我提供了静态图片供大家观看。下图为2017年11月在中国新闻网社会版块出现频率最高的名词。

通过上图我们可以清楚的看到“双十一”毋庸置疑的占领了名词榜的榜首,'共享单车'和‘安全隐患’分别列第2、3名。共享单车的出现也不意外,在过去的十一月份各个省市都出台了一系列关于治理共享单车“乱停乱放”等现象的管理实施意见,并且随着共享单车行业进入洗牌期,多家共享单车出现的退押金难等诸多问题,让它进入我们的前三名似乎也不意外。关于第三名“安全隐患”,联系到北京大兴区西红门镇“11.18”重大火灾事故所揭露出来的诸多安全隐患问题,也不难理解。尤其值得注意的”携程亲子园”也在我们的图表中位于中等位置。而近期热点事件的另一家幼儿园并没有上榜,估计是事件太近所以数据量难免不足。其它的数据应该也是对应着一些热点信息,就不逐个解释了。

下图为2017年11月在中国新闻网社会版块出现频率最高的人名。

你知道新闻媒体在新闻报道中最喜欢用什么来指代人物么?通过上图的词云我们可以知道李某、张某、王某、陈某、刘某可以说是新闻媒体在新闻报道的最常用的五大指代名啊,这可能也间接说明这是中国最多的几个姓氏,事实呢?确实是这样的,这5大姓氏在中国大约有4亿的人口。那其它的人名有何含义呢?其他人名我们不难发现,几乎囊括了11月份重大热门案件的主角,成为了人们的关注点,其频率自然而然就提高了。是不是感觉数据真的不会骗你?

那这么多的热点事件都在什么地方发生的呢?通过下面这张11月份各省市新闻出现频率的地图热点显示图,我相信你可以直观的感受到。

通过不同的颜色我们可以看出不同地方热点事件发生的情况,红色的表示在该地区在新闻上出现的频率很高,北京、上海、广东、新疆、西藏都排在了前列,而黑龙江、吉林、内蒙古、山西在新闻上出现的频率则远远不足。

那过去的11月份有没有什么机构在新闻中有着很高的“出镜率”呢?别说,还真有。下图这个圆环饼图表示11月份出现的高频机构。

通过这个圆环饼图我们可以清楚的看出,在过去的11月里,公安部以绝对的优势占据了榜首,细想一下不难发现,几乎牵扯到广大社会人民的热点新闻事件,我们的警察叔叔第一时间出现在我们的视线里,这里向辛苦的人民警察致敬。这些机构中除了清华大学和北京大学这两所高校外,其他则以政府部门居多,毕竟我们是以社会版块的新闻为数据源进行分析的,政府部门居多更是能反映我们的国家对人民生活时刻保持关注,我为我们在生活在这个伟大的国度而自豪。

到这里,今天给大家带来的11月份基于新闻数据的可视化分析就结束了,小编对该数据的真实性负责,但是其中的分析方法和数据筛选原则难免会有些瑕疵,欢迎有兴趣的同学进行交流。

本项目的开源地址如下:

https://github.com/sty945/news_spider

如果希望学习该项目整体的思路以及如何利用NLP技术做简单数据可视化分析可以扫描下面二维码,直达详细教程:

欢迎fork和共同完善!!

转载请注明出处:
      CSDN:楼上小宇_home:http://blog.csdn.net/sty945
      简书:楼上小宇:http://www.jianshu.com/u/1621b29625df

只要5分钟用数据可视化带你看遍11月份新闻热点事件相关推荐

  1. 十分钟,用 Python 带你看遍 GDP 变迁

    作者丨周萝卜 来源丨萝卜大杂烩 偶然之间,发现了一个网站,title 是世界银行,很高级的样子,可以下载很多有趣的数据,这对于我们练手数据分析及可视化真的是太好的资源了,不多说,戳下面的链接可以火箭直 ...

  2. 计算机数据表格展示,利用工具,一分钟完成数据可视化,快速输出美观的数据图表...

    天天跟表格打交道的办公室的表哥表妹,为了能让老板看的更一目了然,可以说是费时费力. 今天小姐姐给大家分享一下如何利用工具,一分钟完成数据可视化,快速输出美观的数据图表. [新手们必须收藏转发呀] 为什 ...

  3. 技术19期:1分钟入门数据治理!必看!【技术篇】

    1分钟入门数据治理!必看![技术篇] 前言: 在进行大数据开发过程中,数据调研和开发规范都是必不可少的.数据调研便于理清数据源之间的关系,梳理出哪些数据是符合当下的业务场景以及确定所要用到的加工口径等 ...

  4. H5手机休闲游戏开发商有哪些?带你看遍北京游戏研发公司

    每年H5游戏玩家的比率都大幅增多,原因是手游行业佳作较少,下载量反而越来越大,动则甚至过G的内存储备,所以许多人都开始停下脚步玩玩手机休闲游戏了,用户多了游戏的需求就肯定变大了,不论是商家还是想布局H ...

  5. 数据可视化带你了解茶饮市场规模

    喜茶,一点点,奈雪,蜜雪冰城--近几年来,茶饮文化似乎和我们这代年轻人的生活紧紧结合在一起,一杯奶茶能既能满足口腹之欲,还能充当心灵慰藉,没有一杯奶茶不能解决的事,如果有,就两杯.接下来小编就带大家用 ...

  6. 广东人除了敢吃,原来还“最敢生”!数据可视化带你了解我国人口出生率!

    2015年-2021年,全国新出生人口分别为1655万.1786万.1723万.1523万.1465万.1200万和1062.在2016年全面放开二孩.出生人口达到近年的高峰后,全国新生儿数量已经持续 ...

  7. 我用Python爬取并分析了30万个房产数据,带你看怎么做的

    学 Python 怎样才最快,当然是实战各种小项目.除了要学习Python的具体用法,更重要的是把它作为数据分析的一部分,学习数据分析思维模式,结合具体业务场景,提供业务指导(进而实现升职加薪)--这 ...

  8. 关于数据可视化入门,看这一篇够了

    本篇要点: 01.数据可视化是什么 02.数据可视化的一般流程 03.常见的数据种类 04.通过可视化你想表达什么信息 05.选择具体的可视化形式 06.图表设计原则 07.常用的可视化工具 01|数 ...

  9. 开源:数据可视化分析平台 DataGear 1.11.1 发布

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | https://www.oschina.net ...

最新文章

  1. R语言使用ggplot2包使用geom_violin函数绘制分组小提琴图(配置显示均值、中位数)实战
  2. leetcode算法题--从上到下打印二叉树
  3. mojo 关闭utf8
  4. C#关机代码实例详解
  5. 讲讲JavaScript的闭包
  6. Spring MVC和Thymeleaf:如何从模板访问数据
  7. R语言统计分布及模拟
  8. hdu 5101 n集合选2个不同集合数使和大于k
  9. 【原创】1985-2021年《中国城市统计年鉴》900+全变量地级市面板数据 Python编程整理直接可用的城市面板数据
  10. H264___DCT蝶形算法____理解
  11. 惠普电脑u盘重装系统步骤_惠普电脑如何重装系统?惠普电脑用U盘重装win10系统教程...
  12. python条形图y轴_python 中条形图绘制
  13. TP6 WhereIn排序问题
  14. Pycharm控制台中文输出乱码怎么办?控制台输出乱码问题的解决方法
  15. Java生成PDF文件保存到本地磁盘
  16. Oracle应用之to_char(参数,'FM990.00')函数
  17. 【Verilog语法1】加载存储器$readmemh和$readmemb函数的使用
  18. KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结
  19. 咪咕盒子MG100,电视机顶盒禁用软件安装软件
  20. javabean+servlet+JSP页面做购物网站 (附效果图+源码)

热门文章

  1. 设置普通用户执行docker命令,执行docker命令无需输入密码或者切换root用户
  2. 【Sql Server】DataBase-事务与系统元数据函数
  3. jquery.raty评星插件
  4. java日期转化工具类
  5. ALD和CVD晶体管薄膜技术
  6. VS Code 调试 OneFlow
  7. MindSpore模型精度调优实践
  8. Python分析离散心率信号(上)
  9. 分离内核和虚拟机支持安全的关键任务边缘计算
  10. CSS Modules