数据有何用处,能吃吗?

 

6,000英里的马路,600英里的地铁,400英里的自行车道和0.5英里的电车轨道——这是罗斯福岛上测量到的数据。

上述基础设施数据,来自市政机构的发布,比如:交通部会告诉你未来将有多少通向国外的公路,大纽约交通运输管理局会自信满满告诉你一条地铁轨道延伸的长度,同样,大多数市政机构会给出类似的数据。

以下是来自出租车管理委员会的报告:纽约市范围内大概有13,500辆出租车。

这些数据是不是很有趣?但是你有想过这些数据来自何处吗?

拥有这些数据固然很好,政府机构里总有人也许会说:或许我们的市民对这个或者那个数字感兴趣呢。所以他们就重新将原始数据捡拾起来,做些加加减减的运算,成了我们刚才看到的数字。

那么问题来了——我们怎么整理这些数字呢?

事实上,我们对这个城市有着太多的好奇和疑问,以至于这些机构无法回答详尽,如此以来,这些数据并没有发挥出应有的作用。

我们的政策制定者并没有忽视这个问题,早在2012年,Bloomberg市长就签署了一个数据开放的法案,该法律强制要求城市机构把他们得到的所有数据公开到线上且可搜索,在我们看来,这已经是全国范围内最全面和最有雄心的数据开放法案了。在签署法案的这两年以来,开放数据门户上已经公布了一千来条的数据,这真的很酷。

所以你不必只是单纯地去计算出租车的数量,而是应进一步的问一些问题,比如:纽约的交通高峰是在什么时刻?交通拥堵的确很令人头疼呀。

我们将出租车数量只看成数字,而GPS记录仪则记录走街串巷的每一次路程——根据这些数据,我做了一个纽约出租车全天时速均值的图表:从午夜时分到早上5点18分,车速一直在增加,随后一切都在变慢,直到早上8点35分,平均车速达到了11.5英里每小时并一直保持着这个车速,一直到下午六点半——这意味着,出租车全天都在以这个速度行驶,所以,纽约市没有交通高峰“时刻”,纽约“全天”都处于高峰状态。

这是不是很有道理的样子?这些都是数据的功劳。

如果你是交通规划师,你会很有兴趣了解这个情况;如果你想要快点去到某个地方,只需要把闹钟定在早上4点45分,那可就万事大吉了。

刚才我所说的纽约全天高峰这个结论并不是自然而来的,而是要归功于我们的信息自由法。

在出租车委员会的网站上,你想要获得你想要的数据的话,有一张表格要填,然后就坐等他们联系你吧——有一个叫做Chris Wong的人真的就这么做了。Chris来了之后,他们要求他带一个全新的硬盘,全新的哦,5个小时之后,数据就都拷贝下来了。像Chirs这样的人希望数据能够公开,于是把他拿到的数据挂在网上供下载,这就是刚才“纽约全天高峰”的原始数据的来源。

这个结论不得不让我们大吃一惊,当然GPS记录仪也十分给力。

在数据开放的路上,杀出程咬金——数据的不易获得不易读取

市民们需要大老远拿一个移动硬盘取得这些数据,才得以让政府部门数据公开——这样的“公开”真的够“公开”了吗?这充其量只是“公共数据”,还算不得我们期待的“数据公开”呢。

我们希望市民可以足不出户就可以去分析政府的公开数据,而不是填写申请表长途跋涉带着硬盘漫长等待……

我还根据自行车事故数量,做了一个纽约市最危险的十字路口的地图。地图上红色部分最为危险。

由图可知,Manheim以东,尤其是它的低洼路段,是自行车事故高发路段,这可以理解,因为很多自行车从桥上下来;但是像Williamsburg和皇后大道(Avenue Queens)为什么也是危险地区,这是值得城市规划者考虑的。

这才是我们需要的数据,这才是我们一直在寻找的数据,这些数据并不是凭空得来的,它们经过了有心人对原始数据的再挖掘。

我们在呼吁开放数据的时候,遇到了另一个问题:PDF文件格式。

或许有人曾经尝试过从PDF上拷贝数据,这显然是吃力不讨好的活计。而你们需要的自行车事故数据,来自纽约警署,并且是成百上千页的PDF文件——要知道,光是复制粘贴这些数据,可能就要花上一两百个小时呢。

有一个叫做John Kraus的人,他没有选择复制粘贴,而是开发了一个“纽约警署数据解码程序”,然后登陆纽约警署官网,下载了这些人们需要的数据,并进行内容抓取,将结果放在网上,人们才得以做出“纽约市最危险十字路口”的地图。

从我们获取的数据来看,每次事故都是茫茫表格中的一列,很难想象:我们需要多少这样的PDF才能完成这个地图呢?我们能获得这些数据的PDF当然已经很好了,毕竟我们有“数据解码程序”,可是对于想要分析数据的市民来说,PDF格式远远不够,甚至太浪费时间。

我们的城市应该在数据易得数据易读这两方面更加努力才行呀。

当然也有很多不是 PDF 格式的数据,就比如我做的一个地图,关于纽约最脏的 30 条水道。

听起来虽然奇怪,但是我依据的是水中粪便大肠菌的含量。图上圆圈越大,水质越差,圈圈小的水比较干净。这个数据来自过去五年里,对内陆水道的水质监测数据。内陆的水道的圆圈都比较大,普遍都比较脏。

从中,我们可以有所收获的是:第一,千万不要在排入小溪或运河的水域游泳,第二,通过这个方法,我得知纽约最脏的下水道在哪里。因为五年来,94%的水质样本数据都显示某地的下水道粪便大肠菌含量过高,触犯了“让人们无法游泳”的法律。

这些数据你可没办法在城市报告上看到,当然也不会出现在城市官网的首页上,尽管我们能达到这个原始数据就已经值得高兴了;由于这些数据还不是公布在开放数据门户网站上,所以获取这个原始数据也并不是那么简单。

要是你去开放数据门户上面逛一逛,你就会发现,我们能看到的是一连串的年份和月份;刚才那些数据是来自环保部门的网站,每个链接打开都是一个Excel表格,每个Excel表格又是如此不同,连标题都不同。你只能复制、粘贴、重新排版……

当然,依据这些数据作出“水质地图”是挺不错的。

作为普通公民,我们能为数据开放做些什么——“呼吁更多数据公开督促完善数据公开的标准

但是,我们明明可以为城市数据分析做更多更好的事情,比如规范这些数据。
在开放数据门户上有1100个关于纽约的数据,当中这个数量还在持续增长,你也可以下载它们,无论是CSV、PDF、Excel还是任何你想要的格式。

你下载后就会发现:每个机构对地址的编码方式是不一样的——同一条街道有各种称呼。所以即使有这个平台,我们还有花时间把地址统一起来——这得花上多少的时间啊。所以说,在“地址规范”上,我们的城市还应该做得更好。

我们可以标准化我们的地址,这样我们就能更方便做出那样的数据地图。

比如这个纽约市消防栓地图,这当然不是全市所有的消防栓,这是250个最能引发违停罚单的消防栓呢。

第一,千万不要在上东区停车,在上东区停车必有消防栓车辆违停的罚单驾到。
第二,我发现了两个最能引发违停罚单的消防栓,他们都在下东区,光是它俩一年就能带来55,000美元的罚单呢,而它们都来自于貌似合法停车的车主——这引起了我的好奇,随后我展开了些许调查。

消防栓旁边大约七尺附近有禁止行驶的地标,然后就会有一个停车位。其实那里有停车的地方,只不过人们比较偏好停在消防栓旁边,然后纽约警署就会来开罚单啦。并不是我看到了,而是谷歌街景车路过的时候,拍到的。

所以我在我的”I quant NY”博客上就写了这个东西,然后纽约运输部说他们没有收到因为这个消防栓的位置而产生的投诉,但是他们会重新检查,做出整改。
我想,这也许只是典型的政府回复,光说不做吧——但是几周之后,正是见证奇迹的时刻:交通部门调整了道路标志,还重新粉刷了停车位,以便司机不会被处罚。

那个瞬间,我看到了开放数据的光明的未来——五年以来,一个总是产生罚单令人纠结的地方,有一天一个市民发现了其中的奥秘,并告知了市政部门,然后问题在几周内得到了解决。

这是不是很神奇呢,有的人也许说,开放数据只是监视器,没有实质作用,我却觉得开放数据是城市的伙伴,我们可以尽自己的力量更好地帮助政府,而且并没有想象中那么难——只要我们好好研究这些数据。

这也说明不仅仅是数据公共,更需要数据公开。如果政府公开了PDF,那我们就申请立法来公开那些还在隐藏的数据。

我们一起来制定和分析开放数据的标准吧!

从纽约地址规范化开始。纽约一直是开放数据方面的领先者,如果我们开始规范化我们的开放数据,那么其他人、其他州也会跟我们一起做,然后联邦政府也会。虽然听起来有些疯狂,没准其他国家也会加入我们的行列。

总有一天,我们写出一个程序,将上百个国家的数据汇成一个数据地图——这可不是科幻小说,我们离这个梦想不远了。不仅仅是John Kraus和Chris Wong在致力于这个,在纽约,当下就有几百个讨论会在进行,参与者逾千人,他们在工作之余,花上10分钟来看看这些公开的数据,就能使城市更加美好。

在上周,一个“纽约城市小组”的团体就可以让你签署关于你家附近、办公室附近的一些投诉,你贴上你的地址,然后你就可以得到当地的投诉。

这并不是一个智能社区才能做到的事情,这来自多元化背景下的每一个人的努力。每一小的改变,每个市民用热情和潜能来充分利用开放数据,哪怕仅仅改变一个停车位,我们都在改变这个城市,让它更加美好。

(文章来源:软件定义世界)

更多内容请关注星环科技微信公众号

转载于:https://my.oschina.net/u/2559823/blog/604268

为什么我们的数据还不够开放?相关推荐

  1. 专题:数据自治开放(下)

    专题:数据自治开放 Self-governing Openness of Data 导读: 推动数据开放共享是国家大数据战略的核心内容.但在实施过程中,数据开放共享面临着"数据拥有者不愿.不 ...

  2. 数据自治开放的软件开发和运行环境

    数据自治开放的软件开发和运行环境 吴毅坚1,2, 陈士壮1,2, 葛佳丽1,2, 赵文耘1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 ...

  3. 数据自治开放模式下的隐私保护

    数据自治开放模式下的隐私保护 王智慧1,2, 周旭晨1,2, 朱云1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 摘要:数据开放对于提 ...

  4. 数据自治开放的加密技术挑战

    数据自治开放的加密技术挑战 黄霖1,2, 黎源1,2, 汪星辰1,2, 赵运磊1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 摘要:数 ...

  5. 数据自治开放应用平台设计与实践

    数据自治开放应用平台设计与实践 陈德华, 潘乔, 王梅, 乐嘉锦 东华大学计算机科学与技术学院,上海 201620 摘要:围绕数据自治开放的数据管理新模式,提出了一套面向数据自治开放应用的整体解决方案 ...

  6. 专题:数据自治开放(上)

    专题:数据自治开放 Self-governing Openness of Data 导读: 推动数据开放共享是国家大数据战略的核心内容.但在实施过程中,数据开放共享面临着"数据拥有者不愿.不 ...

  7. 数据自治开放与治理模式创新

    数据自治开放与治理模式创新 沈逸1,3, 姚旭1,3, 朱扬勇2,3 1. 复旦大学网络空间治理研究中心,上海 200433 2. 复旦大学计算机科学技术学院,上海 201203 3. 上海市数据科学 ...

  8. 面向数据自治开放的数据盒模型

    面向数据自治开放的数据盒模型 熊贇1,2,朱扬勇1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 摘要:在数据自治开放模式中,数据使用者 ...

  9. 【2017年第1期】大数据能力开放平台创新和发展

    李大中,刘剑,邓景文 中国联合网络通信集团有限公司,北京  100033 摘要:大数据能力开放平台依托中国联通大数据生产平台优势,构建总部数据域大数据对外合作平台,打造一个内外合作.共存.共赢可持续发 ...

  10. 如何用大数据和开放平台创新

    在一个大部分数据可以实时获取而且存储没有限制的世界里,金融机构该如何竞争?更多的数据和更多的数据归档服务不一定能帮助金融机构更好地服务客户,除非可以以一种能为顾客带来便利的独特方式使用这些数据.你的银 ...

最新文章

  1. MySQL 批量插入:如何不插入重复数据?
  2. 232/485电平,OC门,OD门,TTL电平,CMOS电平,
  3. ethercat通讯协议_工业控制常用接口协议大全,长见识了
  4. 姜汝祥的-赢在执行 - 制度执行力的三要三化
  5. CRM WebUI designer layer的读操作
  6. 浅谈SQL Server identity列的操作方法
  7. 表弟励志做程序员了,除了霸王我还能给他什么?
  8. RS-232、RS422和RS-485的区别和各自的实现方式
  9. 律师总结二手房买卖中的八大陷阱
  10. Java的 类型转换器工具类Convert
  11. DINO 自监督算法简介
  12. 阿里巴巴的业务范畴/文化和价值观
  13. 怎么教你如何查看电脑的蓝牙版本【解决方案】
  14. 服务器如何选择备案产品类型?
  15. python爬虫:爬取QQ音乐歌曲
  16. 计算机系统基础(第一章习题)
  17. 转载 一个小时学会MySQL数据库(3)
  18. mysql查看备份文件_MySQL的备份与还原以及常用数据库查看命令
  19. vbs小程序图标更改方法
  20. windows网络连接不显示身份验证标签页解决办法

热门文章

  1. 高中数学必修一,集合知识概念运算归纳总结
  2. 循序渐进Linux目录
  3. 分布式块存储Longhorn简介
  4. 全新小说安装教程小程序源码
  5. VSCode插件之Beautify
  6. 翻译Allegorithmic的文档《THE PBR GUIDE - PART 1》
  7. 飞刀哥移植UC/OS-II到LPC1788(ARM Cortex-M3)的步骤
  8. 高等代数笔记4:线性空间
  9. 交换机级联,堆叠,集群技术介绍
  10. 香蜜沉沉烬如霜里的共付鸿蒙,香蜜沉沉烬如霜的伤感句子35条