牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构。今天主要给大家介绍一下英国数据治理的一些现状和实践。Data.gov.uk就是相当于英国的电子政务云。我不知道大家还记不记得这个画面,这是2012年伦敦奥运会的时候,当时的一幕,一个房子拉开了之后一个人在里面座着打计算机,这个人是一个英国籍也是牛津大学毕业的科学家,也是万维网之父。他当时创造互联网时候当时是一个博士生,他有一个想法就是说能不能有一个东西把全世界的电脑里面文件全部连接起来,所以他提出了超连接的概念。当时他说我这个东西造出来之后不是唯我独享的,我这个东西造出来之后是全世界所有人所共享的,所以他没有申请专利,把这个放到网上就公开了,就是一个蝴蝶效应,没有人想到互联网发展到现在是这么一个蓬勃的产业,这是当时非常年轻的一个博士生的想法。

他发明互联网之后回到英国,大家问他互联网另外一个发展点是什么,他当时不加思索的说大数据。所以英国开放数据的始祖还是他,他不停的在英国政府之间游说,推动政府开源,因为政府掌握大量的资源,政府首先要做起来,把这些东西做起来,然后推动开放数据的计划。

英国首相卡梅隆先生2012年推出了“透明性革命”,就是这届政府致力于建立一个全世界最透明、最开放的政府这是他当时竞选首相的宣言。刚才张研究员也说了,G8峰会是中国为首的推动全世界最发达的8个国家提出了一个声明,开放数据是全球化核心的进程,主要致力于提供更加有效的,更加负责任的政府。从而更加的推动经济和社会的发展,这也是G8峰会达到的共识,所以G8峰会有一个宣言就是致力于推动八个最发达的数据开放的项目。

2014年政府开放程度的排名大家可以看到英国是远远高于其他的政府,综合评分是96%,第二名丹麦政府只有83%。所以大家可以看到英国从公共的交通信息,包括政府预算信息和它开放的是领先于很多国家最主要的原因就是把所有政府的消费信息,就是政府花了多少钱都放到网上,排第二名的丹麦这方面还是很欠缺的。第三是他们所有的选举信息都放到网上,和国家地理信息、统计信息、立法信息和邮政信息、和跟环境相关的污染的信息都是毫无保留的。除了牵扯到隐私和国家安全的数据不能公开之外,只要能公开的尽量公开。所以英国在开放数据方面一直遥遥领先于世界。

Data.gov.uk我们是有幸得到谷歌的资助,2013年开始对这个网站进行大规模的研究分析它的使用情况。首先看一下开放的定义,开放有不同的定义,到底什么是真正的开放?在英国有一个定义,开放就是任何人都可以免费获取、使用、修改或者分享任何信息、任何的目的。所以是没有任何限制和没有任何附加条件的开放。开放数据在英国的定义,所有的开放的数据和开放的内容都能够免费的使用,免费修改和免费分享,可以不拘于任何目的哪怕是商业的目的。所以是完全之开放,没有任何附加条件。

英国开放计划大概有8个定义,8个标准。第一个首先是完全的开放,必须尽量把所有全部的数据拿出来。第二个就是优先级是很高的,必须得排在政府工作很高的优先级。第三个就是时效性,不能说政府把这个数据放了十年以后再开放,没什么用了,所以能尽早开放都尽早开放。第四就是必须要有有效的访问手段。英国政府有一个很好的网站一搜索所有想要的数据都能找到,所以它提供了非常好的访问性。第五必须是机器能够获取。比如说一个照片放到网上,一个扫描文档放到网上机器读不了也不行,必须是机器能读得格式。再一个就是不能有任何歧视,所有人都能拿得到。还不能有任何知识产权的保护,任何人都可以用,不能说有很多附加条件。所以这是一个非常完全的开放。

刚才我也提到了英国政府对这个东西特别强调,就是所有开放的数据有五个评分,评分最好的就是对机器阅读最有效的格式,所以一定不能是照片这种格式,因为是一个大数据的系统,所以很多是通过机器访问数据的,所以格式必须是能够机器访问的,这是英国评判一个数据好坏的绝对标准,就是数据是否能被机器所访问。

这是西方国家开放数据的目录栏,进到里面可以看到所有开放数据国家开放数据的网站。

下面讲一下开放数据的目的,为什么要把这些数据拿出来呢?首先就是社会觉得我们很多数据政府愿意放出来。第二步就是刚才史总讲到的,政府把这些数据拿出来,是因为政府的人可能也不太懂这些数据,存在那儿浪费资源,为什么不拿出来让社会的有识之士懂数据的人用呢。所以就是在数据基础上创造一些新的东西。

英国政府做法是有一个开放数据研究院,简称叫ODI,也这个研究院总部设在伦敦,是一个数据创客,是一个开放的环境,任何人都可以进到里面去开发应用,开发手机软件。当时我们去的时候,他们给我们介绍一个案例,一个在读的高中生,来到这个地方突发奇想说我为什么不开发一个软件告诉大家,我生活周边的犯罪率的记录呢,所以他当时回去花了一个星期的时间开发了这个软件,这个软件就爆火了,因为在英国只要搬家的话大家会查一查周边的犯罪率的情况,大家都希望住到安全的地方。还有查找医生信息、住院信息和查找住房的信息很多可能性都可能发生。所以它不光是一个研究机构,还是一个孵化基地和创客集中地。

介绍一下我们的研究,这是唐人街10号请愿的数据分析,这个网站是高于500个人有这个诉求的话,政府就得出来回应。第二个案例我们把政府所有的网站的流量做了数据分析,比如这个是中央政府网站的入口,可以进到不同的部委,可以通过流量分析把部委网站使用频率做一个可视化的分析。

还有政府网站的维基百科关键词的分析,显示比较高的就是开放的政府、包括有专门给政府提供开放数据技术支持的。英国卫报做的2011年到2012年所有政府开支的分析数据,蓝色这部分很大一部分是社保资金占比,英国政府主要开制还是社保和医疗这块,基本占了英国政府总开支70%。国防很少,教育投资都不是很多。所以可以很清晰的看到今年政府花了多少钱,还可以算出政府今年花的钱是多了还是少了,可以很明晰的看出来。

美国加州包括德国等都陆续把他们的预算开支都公开了。

下面介绍一个我们小的项目,英国政府有一个开放的计划,英国所有网站都存在答应图书馆里面,我们现在通过一些网络的爬虫技术和既有网上的信息帮他们进行分析。这个数据库大概有30个Terabytes数据,我们通过答应图书馆帮助英国政府做一些网站的演进闷热。可以从中看到96年到2009年不同的英国域名之间的变化,黄色就是公司域名的增长,大家可以看到黄色和红色是不停的增长的,红色是政府慈善机构的增长,橘黄色是政府,蓝色是学校的增长。

我们在这个基础之上做了不同的域名之间互相流量的分析,大部分的流量还是政府和公司之间的流量,政府相当于一个流量的连接器。

我们今年6月份刚发表了一篇文章,我们的院长是资深的政治学教授,也是政府开放数据的推动者。我们花了一年的时间把所有英国政府开放的数据研究了一遍,最后给政府和业会提供一些建议。挑几个关键点给大家分享一下,通过我们的分析发现什么样的数据使用比较多的呢?就是跟财经相关的信息,跟政府花消相关的信息使用的比较多。老百姓最关心的还是政府花了多少钱这块。

另外就是政府公共基金被使用的比较多,政府公共基金是英国人的概念,包括税务、财政都是被归类于政府公共基金的,所以这块看的也是比较多。

第三,它的这个数据如果有很多描述的信息,政府被民众所下载的情况比较多。

第四,数据更新频率越高,有可能下载频率就更高。

通过这四点,我们最后给英国议会也做了一个报告,因为开放数据的数据量太大了,我们要给数据做一个优先级,可能被老百姓关心更多的数据、下载更多的数据,给它更多的优先级,这样就能更新的更快,有些老百姓可能不太关心的数据就把它降低更新的频率。

Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践...相关推荐

  1. 电子政务“云”成大势

    本文讲的是电子政务"云"成大势,当十年前,国家有关部门正式决定将电子政务建设作为我国信息化工作重点之时,不知是否预料到我国电子政务应用的发展竟如此迅速.正如国家信息化专家咨询委员会 ...

  2. 国内首个电子政务云平台落地

    国内首个整体服务外包的电子政务云平台落地济南. "中裕磐云将利用先进的云计算技术和商业模式建设政务云计算中心,为电子政务建设应用提供国内一流的云计算技术支撑服务,主要包括云服务器.云容灾.专 ...

  3. 山东省电子政务云平台顶层设计进一步完善

    4月8日,山东省经信委网站发布了<山东省电子政务公共服务云平台顶层设计>(以下简称顶层设计),进一步保证了山东省电子政务云平台顶层设计和建设的统一性.按照省政府办公厅<关于加快我省电 ...

  4. 基于“云计算”技术的电子政务平台

    电子政务工作模式在不断发生着变化,尤其是现在信息技术的高效应用,政府工作内容以及作业模式在持续更新,有必要基于新型技术来建立全新的工作平台,以求更好的适应各种变化.以云计算技术作为核心,构建功能完善的 ...

  5. 电子政务方向:We7.Cloud政府云门户

    2019独角兽企业重金招聘Python工程师标准>>> 一.打通移动互联网.融合社会化媒体: 二.基于云的网站群平台:网站云 网站云基础技术框架 政府网站群云服务资源层包含IaaS. ...

  6. 阿里云积极落实等级保护制度,政务云全国首个通过等保2.0合规评测

    2019独角兽企业重金招聘Python工程师标准>>> 5月16日,阿里云"电子政务云平台系统"正式通过网络安全等级保护三级测评.这是等保2.0正式国家标准GB/ ...

  7. 作者:孙傲冰(1978-),男,博士,东莞中国科学院云计算产业技术创新与育成中心电子政务事业部副研究员...

    孙傲冰(1978-),男,博士,东莞中国科学院云计算产业技术创新与育成中心电子政务事业部副研究员.主任,国云科技股份有限公司技术副总裁,电子政务集成与应用国家工程实验室分中心主任,主要研究领域为云计算 ...

  8. 用“五心”寻找政务云的“答案”

    踏进猴年,云计算的发展已经从"成长期"进入到"普及期",政务云应用更是迎来了爆发性的增长,根据预计,到 2018 年国内电子政务云总体投资规模将超过 3400 ...

  9. “云上贵州”成全国首个国密算法应用试点项目 阿里政务云实现“国家级”安全保护...

    11月22日,阿里云联合国家密码管理局.贵州省密码管理局.数据通信科学技术研究所.云上贵州大数据产业发展有限公司共同宣布:"云上贵州"成为国内首个国家商用密码算法应用试点项目. 据 ...

最新文章

  1. 关于inline函数
  2. C语言过河问题主函数,c,c++_C语言踩石头过河问题,用DFS搜索递归了17万次但是没报错,请问是什么原因?,c,c++,算法 - phpStudy...
  3. antimalware可以关闭吗_iPhone最好关闭这4个设置,手机流畅还省电
  4. mac r 导出csv文件_R在Max OS进行导入和导出xlsx文件
  5. 今天发生在自己身上的搞笑事情是什么呢?
  6. javascript 本地存储(cookies、sessionStorage和localStorage解释及区别)
  7. C语言课程设计|学生成绩管理系统(含完整代码)
  8. c语言计算一个三位数的个十百位之和_C语言的那些经典程序
  9. 新睿云 亚马逊_一窥新发现的亚马逊欺诈检测器
  10. Linux怎么有两个vmdk文件,「Linux」- 挂载 VMDK 文件
  11. 福特汉姆计算机专业,福特汉姆大学计算机如何
  12. MeterSphere案例分享丨88完美邮箱全面提升产品质量的落地指南
  13. unity换装骨骼、蒙皮、动作之美
  14. 网络层笔记六、硬件地址与IP地址
  15. SWMM排水管网水力、水质建模及在海绵城市与水环境保护中的应用
  16. Ubuntu内网穿透搭建网站:设置跳转本地网页服务 6/17
  17. 干掉Vivado幺蛾子(1)-- Xilinx Tcl Store
  18. 青龙BOT机器人交互
  19. mycat 常用分片规则使用详解
  20. SQL:如何给sql查询结果加上序号

热门文章

  1. 2022年最新谷歌翻译chrome 浏览器翻译解决方案
  2. 定义一个矩形类Rectangle:(知识点:对象的创建和使用)
  3. BUUCTF MD5
  4. 8255A的工作方式
  5. 每期智力题、数量关系题、推理判断题
  6. 编程逻辑入门必备2:归纳推理
  7. 关键词竞争度如何分析?
  8. 【API接口大全】查询订单详情/物流信息/交易订单
  9. Mac电脑自动开机设置教程
  10. jmeter连接数据库查询获取多个参数, 并通过参数化传值,实现jmeter造数