PS:文章主要转载自36大数据的文章:
           http://www.36dsj.com/archives/33280
      最近同学找工作,在百度搜索引擎面试时就被问到"一条新闻是如何被发现的呢?"我能想到就是实时性,某段时间内突然关注的词汇可能是新闻,再或则是通过模板打分判断。
      下面这篇文章就详细讲述了一条数据新闻是如何产生的?遗憾的是没有论述如何探索一条信息是有价值的新闻。但同样希望对你有所帮助,尤其是从事搜索引擎、信息挖掘相关的专业或面试的同学。

9月12日,在由中国传媒大学国际传媒教育学院、财新数据可视化实验室、百度新闻实验室联合主办的“京华论道——2015可视化与数据新闻分享会”上,财新传媒首席技术官、财新数据可视化实验室负责人黄志敏带着案例与现场听众进行了分享。他根据自己从业的经验,将数据新闻的生产切割成七个步骤,庖丁解牛般地将数据新闻的选题确定、数据整理和可视化呈现进行了清晰地分析。声名在外的财新数据可视化实验室实是怎样完成一个大体量的数据新闻制作的?

以下为演讲实录:

今天我用一个案例,给大家拆解数据新闻的生产过程。

什么是可视化?


讲数据新闻离开不可视化,可视化是数据新闻的基础。什么是可视化?我们把可视化分为三个领域,第一个叫科学可视化,第二个叫信息可视化,第三个叫可视分析。

科学可视化主要用于处理科学数据,如地理信息、医疗数据等,以自然科学领域为主。我们日常接触到的地图、气象图、CT等都属于典型的科学可视化。

信息可视化主要用于处理抽象的、非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据。传统的信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关。我们在路上看到的交通标志都属于信息可视化。

第三类叫可视分析。北大的袁晓如老师一直强调我们不应该叫可视化分析,应该叫可视分析。可视分析用可视化的方式来帮助分析数据,以找到我们平常不容易发现的内容。平常我们接触最多的可视分析可能是是最近大家又爱又恨的那个东西(上半年主要是爱,下半年主要是恨)——K线图,将最高价、最低价、开盘价收盘都合并到一个曲线里,非常的方便,特别典型的可视分析。

可视化的好处是直观。炒股的朋友,如果早上一打开炒股软件或网页,满眼都是红的,顿时精神愉快容光焕发,能开心一整天;万一看到满眼绿色,立刻整个人都不好了。这个效果特别明显,都不需要看具体的数字,有点颜色刺激就行。所以有个炒股软件提供了一个功能,叫红绿对调,逢股灾的日子把这个功能打开,整个屏幕刷的一下就变红了,虽然明知道是假的,可心情还是好很多。这也是可视化的功劳。

科学可视化,信息可视化和可视分析,这三个都称为可视化,把可视化和精确新闻报道结合在一起,就成了数据新闻。

讲到这里不能不提精确新闻报道。精确新闻报道产生于二十世纪六七十年代,提出者认为传统新闻报道向艺术的方向发展,追求讲故事,追求文字优美动人,但还可以有另外一个发展方向,就是科学的方向,追求精确的分析和表达,这个方向就是精确新闻报道。所谓精确新闻报道,是将社会科学的研究方法,比如抽样调查、实验和内容分析等引入到新闻报道中。所以它更像一篇论文或调查报告。现在看到的财经报道,很多都可以被归入精确新闻报道。但精确新闻报道往往充斥了大量的数字,不容易理解和记忆,这种情况下可视化发挥了重要的作用,它可以帮助作者和读者从数据中挖掘出隐藏的真相,还可以帮助读者理解文章的内容。将可视化和精确新闻报道相结合,就成了数据新闻。

数据新闻可以用静态的图表来表现,也可以用代码来实现。前者也称为信息图,后者可以叫互动图表。今天我所讲的数据新闻,主要指互动图表。

数据新闻团队怎么构建?


做数据新闻需要图中这些角色:数据分析师、记者编辑、美术设计师、程序员。这里头记者编辑必不可少,负责内容的组织;美术设计师会考虑这些数据用什么样的图形去表现更好看;程序员要把这个图形用代码把它实现出来;还有数据分析师,负责数据的分析。在实际操作中,往往一个人会身兼多个角色,所以一个项目有可能由三四个人以上完成,也可以由一两个人完成,只要参与者具备相应的能力。

财新数据可视化实验室有十几个成员,大家组成不同的项目组,完成不同的数据新闻,这是我们的工作方式。

一个案例告诉你数据新闻生产的7个步骤

第一步——找选题

一个好的选题会决定这个数据新闻的受欢迎程度。我们实验室成立于2013年10月8日,成立两三个月之后我们就碰到一个非常好的选题,是什么呢?就是周老虎的案件。这是几十年一遇的好选题。

第二步——找角度

一个选题可以从不同的角度去表现,当时关于这个选题,财新组织了6万字的调查报道,从里面可以找出丰富的素材。在这个报道里头什么角度最引人关注,什么素材最适合做数据新闻,我们花了不少时间讨论。

仔细阅读文章后,我发现其中有一个内容特别有意思——这起案件涉及了几十个被调查的人,有他的亲属、亲家、下属,甚至下属的下属,调查了几十个人。我想如果能把这几十个人的关系讲清楚是很好的一个题材。第二部分是关于公司,里头讲了一百多家公司,都是周氏家族直接间接持有的公司,通过这些公司赚钱。这些公司有的并不直接在周氏家族成员名下,有些公司已经被转让了。能不能把这些公司讲清楚,也是很有意思的事情。于是我决定用这个角度,从人和公司的角度,来做这个数据新闻。

第三步——数据搜集整理和清洗

当我们完成前两个步骤就需要启动第三步:数据收搜集整理和清洗。前两步可以认为是策划阶段,以口头讨论为主,如果觉得不合适可以推倒重来,成本损失不大。从第三步进行实操环节,会有较大的工作量。把这些数据从报道里抽出来之后,按照我们设计的格式把它变成了图中这个数据库的样子。

为什么要整理成有规律的数据?这是为了后面写代码的时候便于数据提取。除了把数据按各个字段分开,还要将错误的数字剔除,再整理成统一的格式,这个过程称为数据清洗。

第四步——数据分析

这一步首先要分析这些数据的特征。从前面这张数据库的图可以看出:数据基本都是定性分析,主要讲的是人跟人之间的关系,以及人跟公司、公司与公司之间的关系。分析这些数据之后,会发现核心两个关键点:一个叫人,一个叫公司。关系有三种,一是人跟人之间的关系,第二个是人跟公司之间的关系,第三个是公司跟公司之间的关系。


首先看人跟人之间的关系,可以归纳为三种关系:血缘关系、利益关系和工作关系;人跟公司之间或公司跟公司之间的关系,也可以归纳为三种:第一种是现股东,目前持有这家公司的股份;第二种是前股东,以前是公司的股东,现在把公司转让了;第三种叫获取收益,以前、现在都不是公司的股东,只是从这个公司赚钱。

然后,再把这些关系分别合并为几种类型。

人跟人的关系合并为三种类型,第一种叫直系亲属,第二种叫上下级,第三种是老板和秘书。直系亲属关系没有方向性,关系是相互的。上下级和老板秘书这个反系,则有明显的方向性,得讲清楚谁是谁的下级,谁是谁的秘书。

人与公司或公司与公司之间的关系,可以合并成两种:第一种是持股,第二种叫转让或者收益。这样数据就简单了,变成对这些关系做定性分析。

第五步——要选择合适的图形

做数据新闻我最喜欢这个环节。你必须找出最合适的图形来表现前面那一堆数据,没有标准答案,只有最佳答案,可以不断地改进,让图形更简洁、更优美、更准确,就像解智力题。

我们先看一下图形的分类,数据新闻中常用的图形大致有两类。

当我们对数据做定量分析的时候,通常使用基于坐标绘制的图形。例如折线图和散点图,基于直线坐标画出;例如饼图,基于极坐标画出。



如果对数据做定性分析,你会发现通常你画的图不需要基于坐标。下周第一个叫流程图,第二个叫树性图。这些跟坐标都没关系,主要是靠点、线、和箭头来表现。你可以根据需要对图形做扭屈和变形,只要元素相互关系不变,一般不会影响内容的表达。


具体到这个案例,我们主要做的是定性分析,基本上不需要基于坐标轴的图形。


我举一个简化的例子。我们看一下左边这个图形,如果我用一个点来表现一个人,用一根点和点的连线来表现人与人的关系,人际关系基本上可以表现为一些相互连接的点和线。假如把六个点平均的分布在一个圆周上,形成六角形的六个顶点,大致会看到左边的样子,这是很常见的情况。


右边的图形用来表现公司。用一个点表现一间公司,用线把母公司和子公司连起来。图中上方第一排是一间母公司,第二排是三间子公司,其中第二间子公司有两家孙公司,并且第二间孙公司是两家子公司合资成立的。这个是表现公司关系常见的图形。


如果我还要表现人跟公司之间的关系,把公司的股东跟他持有的公司再一连,这图形就变得复杂了,看了不太好理解。怎么办?我们反复推敲很多的方案,用什么样的图形表现最合适呢?

最后我们讨论出一个图形。我们把点平均分布到一条直线上,把联线变成弧线,这样整个图形看起来显得很美观、整齐、有规律。左边将有关系的人用弧线连起来。右边将持股的公司用弧线连起来。实际做的时候还会在一些弧线上添加运动的小点表示它的方向。


我们还做了一件很重要的事,就是反复调整点的前后位置,以便弧线的交叉最少。在这个图中,基本上左边的图形也好,右边的图形也好,把弧线的交叉全部清除了。

第六步——丰富图形的内涵

到第五步已经确定了基本的图形,第六步要丰富这个图形的内涵。


我们来看一下这个图。前面已经说了,我们把人与人的关系总结为三种,我们可以把弧线用三种颜色来表现;人与公司的关系总结为两种,可以把弧线用两种颜色来表现。这样只要一看弧线的颜色,就能理解是什么关系的含义。


然后再怎么做?我把代表人的这一行放在上方,把代表公司的这一行放在下方,把人和公司之间的连线用直线从上到下连接起来,这样就整个图形就形成了。

第七步——代码呈现图形

图形设计好了,接下来怎么用代码来呈现呢?在座有很多朋友做数据新闻相关的工作,或者在公司和学校里希望做可视化的东西,但遇到很大的困难。前面我都会了,后面怎么办呢?两个办法:第一是自己学写代码,自力更生,丰衣足食;第二个办法找能写代码的人合作。我们这个作品是通过合作完成的。


刚才演示的那个图形要比作品要简洁很多,但这个复杂的图形,就是我跟大家描述的思路一步一步做出来的,所有的事情都有章可循,有规律可找。

这样一个作品,真正要实现的时候,还有很多需要考虑和丰富的地方。例如:你怎么引导用户视线?能不能让用户不要眼花缭乱?能不能让他知道应该先看什么后看什么?能不能把它不关注的内容隐藏掉?当他关注某项特定内容的时候,能不能给他展现更多的数据?

这个作品最终在一个屏幕的空间呈现了三万字的信息。

End.

(By:Eastmount 2015-10-5 晚上10点半 http://blog.csdn.net/eastmount/)

[转载] 黄志敏:一条数据新闻是如何用7步生产出来的?相关推荐

  1. mysql 查询随机10条数据 (转载)

    前提条件是,需要有一个自增主键(查询快) 原作:https://www.cnblogs.com/wanglijun/p/8926371.html -- 表名 xp_device -- 自增主键 dev ...

  2. 硬核吃瓜!上万条数据撕开微博热搜真相

    作者 | 徐麟 来源 | 转载自数据森麟(ID:shujusenlin) 吃瓜前言 关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃 ...

  3. 2019 年一千多万条数据遭泄露!

    2019年一千多万条数据遭泄露,而且这个数字还在上涨-- 作者 | Ivar 译者 | 弯月,责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 以下为译文: 似乎每周我们都能看到大量有关私 ...

  4. 大数据新闻生产的实践与反思

    标题注释:本文是国家社科基金重点项目"基于大数据的视听传播效果研究"(项目批准号:14AXW008)的阶段性成果. 如今,人们所掌握的数据量相比从前来说已经是天文数字,无论是巨大的 ...

  5. vue 大数据 渲染_技术专栏 | DMap——实战Vue百万条数据渲染表格组件开发

    作者:TalkingData 李志刚 本文由TalkingData原创,转载请获取授权. 李志刚:近几个月在开发一个基于Vue的数据可视化分析辅助应用---DMap(谛听),一套为数据分析师和数据科学 ...

  6. Python分析9万条数据告诉你复仇者联盟谁才是绝对C位

    作者 | 罗昭成 责编 | 唐小引 转载自CSDN(ID:CSDNnews) <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就 ...

  7. 【读书摘录笔记】计量经济学入门(黄少敏) 第一部分 基本原理

    计量经济学入门(黄少敏) 第一章 什么是计量经济学 模型和回归分析 数据 第二章 统计基础知识 频率表 均值 方差与标准差 假设检验 Z检验和t检验 P-value 相关系数 第三章 回归分析基本方法 ...

  8. EDG夺冠,用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据:粉丝都疯了(唯一原创)

    原创不易,本文禁止抄袭.转载,违权必究! 目录 一.EDG夺冠信息 二.实战目标 2.1 网络爬虫 2.2 数据可视化(词云图) 2.3 自然语言处理(情感分析) 三.bilibili接口分析 四.编 ...

  9. 如何1秒内向Sql Server插入几万条数据

    2019独角兽企业重金招聘Python工程师标准>>> Sql语句如下 INSERT INTO [TableTemp]([Date],[Count])VALUES('2014/2/1 ...

最新文章

  1. python练习_Python随笔31:Python基础编程练习题27~28
  2. akaze特征匹配怎么去掉不合适的点_图像匹配几种常见算法与实践
  3. C# 打好基础图文详解
  4. wringPi 初始化GPIO 为上拉_你彻底弄清GPIO内部结构和各种模式了吗?
  5. 往ABAP gateway system上和Cloud Foundry上部署HTML5应用
  6. PS教程第二课:PS安装
  7. python练习题1
  8. linux tty驱动名称,Linux下TTY驱动程序分析
  9. Screaming Frog SEO Spide如何解决IIS 10中缺少CS协议支持的问题
  10. 关于PPPOE拨号分配给用户32位掩码,且IP与网关相同的问题
  11. java web代码混淆_JAVA WEB 项目的代码混淆
  12. 【车间调度】基于matlab粒子群算法求解6X6车间调度问题【含Matlab源码 411期】
  13. python ray定时任务_python定时任务APScheduler
  14. redfish_Redfish和Ansible的带外管理
  15. fckeditor java 使用方法_FCKeditor使用说明
  16. 教你如何修改树莓派的时区和网络对时
  17. HTML5 浏览器检测
  18. java制作闪星星_three.js制作星球和星星闪烁的简单示例
  19. 真正厉害的人,是怎么分析问题的?
  20. 三分钟读懂双十二布局玩法,大促流量销量双翻倍so easy!

热门文章

  1. 阿里云后台运行python程序(后台运行scrapy爬虫)的方法
  2. 窗口全屏化得方法大全(5种方法,你都知道吗?)
  3. Android下拉列表显示
  4. Android NFC读MifareClassic卡获取卡片ID 类型 扇区 存储空间
  5. 网络常见状态码大全。收藏这一篇就够了(HTTP Status Code)
  6. 【Hive+MySQL+Python】淘宝用户购物行为数据分析项目
  7. 交通数字孪生高速公路规划设计市政道路BIM正向改扩建设计利用实景三维无人机机载LiDAR倾斜摄影车载地面三维激光扫描仪LiDAR点云数据提取自动驾驶高精地图三维矢量车道标线3d点云标注
  8. Android 中更改了默认app图标,在手机上还是显示默认图标
  9. SAP SD 客户物料主数据
  10. JS实现抖音小姐姐表白源码