今天介绍加拿大皇家科学院院士、ACM/IEEE Fellow、加拿大滑铁卢大学Tamer Özsu教授的报告《A SYSTEMATIC APPROACH TO DATA SCIENCE》。

该报告是2022年1月15日由北京大学王选计算机研究所数据管理实验室(PKUMOD)和大数据分析与应用国家工程实验室(北京大学)知识集成和智能决策中心主办的学术交流年会中的Keynote报告。

报告视频

学术交流年会-北京大学-数据管理研究室(PKUMOD)_哔哩哔哩_bilibili2022年1月15日,由北京大学王选计算机研究所数据管理实验室(PKUMOD)和大数据分析与应用国家工程实验室(北京大学)知识集成和智能决策中心主办的学术交流年会,在北京大学中关新园顺利召开。多位专家学者以图数据库和大数据为主题,探讨了数据库领域的前沿课题、图计算系统的设计和理论分析方法。会议由北京大学王选所邹磊教授主持。会议邀请到加拿大皇家科学院院士、IEEE/ACM Fellow、加拿大滑铁卢https://www.bilibili.com/video/BV1tm4y1S7XC


本次报告的内容是介绍数据科学领域的相关概念和基本方法。

报告从六个方面介绍了数据科学领域的重要问题:数据科学的概念、数据科学的主要应用、数据科学的生态系统、数据科学的生命周期、数据科学的系统架构、以及数据科学的所属范畴,最后提出了几点值得思考的问题。接下来进行详细介绍。

01

数据科学的概念

基于数据驱动的方法通常包括数据收集、管理、分析、解释、数据可视化、以及结果分析等步骤。

数据科学是多个研究领域的融合,涉及到数据管理、人文科学、机器/统计学习、领域专业知识、可视化、最优化、社会科学、法律等多种领域技术。

数据科学通常与大数据、机器学习、人工智能等概念一起出现,但值得注意的是,这些概念之间并非简单的相等关系或包含关系。首先,数据科学并不完全等同于大数据,可以将大数据看作是数据构成的原材料,而数据科学的主要工作则是研究如何处理这些数据,对数据的正确理解和适当应用才能够使数据资源发挥应有的价值。另外,数据科学与人工智能也并非简单的包含关系,数据科学方法与人工智能技术的有机结合才促进了机器学习、数据管理等分析方法的发展进步。

02

数据科学的应用

数据科学通常与下游应用场景息息相关,具体应用场景赋予的数据科学研究的明确目标,也为核心技术提供必要的信息。可以说,几乎任何具有大规模数据的领域都能够为数据分析提供良好的研究基础,例如欺诈检测、推荐系统、生物医学领域等。下面简单进行介绍。

欺诈检测的目的是研究已有数据中的欺诈模式,欺诈问题的尽早发现可以及时防止数据遭到进一步损害和恶化,对数据管理和应用具有重要意义。精确率(主要是假阳性和假阴性问题)和实时性是欺诈检测研究中的重要方面。

数据科学的另一个重要应用是推荐系统,推荐系统是根据不同用户的特点提供个性化的服务,进而达到增加销量、提高点击率等目的。其中经典的方法有大规模协同过滤算法。

数据科学在可持续性研究领域也发挥了很好的作用,例如进行气候变化研究等。这一领域可以提供丰富的大规模数据资源,如地球观测数据、遥感数据、公众科学数据、地面观测数据、以及来自移动设备的高时空分辨率数据等。

03

数据科学的生态系统

数据科学的构建模块涉及四个主要部分:数据工程、数据分析、数据安全和隐私、以及数据伦理。接下来分别进行介绍。

1)数据工程

数据工程包含两个方面:i)数据准备,具体是数据获取/收集,数据清洗,数据来源与谱系研究等主要模块;ii)大数据管理,如数据集成,大数据存储和管理等。

数据准备流程主要有四个部分:

  • 数据获取,为具体问题找到合适的数据;

  • 数据集选择,确定最有价值和最适合的数据集;

  • 数据集成,集成不同数据源的多模态数据;

  • 数据清洗,减少集成数据中的杂质和错误。

大数据的4V特征是这一环节的重要数据基础:

  • 规模性(Volume),即数据规模较大;

  • 多样性(Variety),即数据来源和类型众多;

  • 高速性(Velocity),即数据增长速度快;

  • 真实性(Veracity),即数据中存在不确定性或错误数据,数据质量是重要因素之一。

数据集成过程中,数据质量是要考虑的重要问题。其中数据质量的评估维度多种多样,如准确性、完整性、一致性、时效性、有效性、唯一性等[1]。

2)数据分析

数据分析的定义是运用统计和机器学习技术,从所研究数据中汲取见解,以及对所研究系统的行为进行预测。

数据分析方法的类型有以下四类[2]:

  • 描述型,如这些数据呈现了什么问题;

  • 判定型,如数据揭示了问题发生的原因是什么;

  • 预测型,如下一步将要发生什么,或当前决策的影响是什么;

  • 规范型,如给出行动的建议。

常见的数据分析任务有:

  • 数据聚类,工作主要是将数据对象分为多个簇;

  • 异常值检测,即异常数据的检测;

  • 关联规则挖掘,发现数据之间潜在的关系;

  • 预测,即对数据进行分类或回归。

3)数据安全和隐私

数据隐私和安全也是不容忽视的重要问题之一,大数据环境下面临的问题有很多,例如人为因素导致的错误、网络攻击、间谍软件、软件漏洞、计算机病毒等。

其中面临的主要威胁有:数据泄露、数据监视、虚假信息、设备攻击。

因此,数据保护也具有多个不同维度:在数据安全方面,有数据加密、网络安全、访问控制、活动监测、漏洞响应、数据丢失防护、数据威胁防护等;在数据隐私方面,涉及的维度包括数据发现和分类、第三方管理、数据清除等[3]。

另外,此处要将传统的安全/隐私概念与数据科学领域中的数据安全/隐私概念进行区分。传统安全/隐私往往关心的是数据的保密性和完整性,即未授权用户不能访问或修改相应数据;而数据科学领域中的数据安全/隐私,通常考虑数据的隐私性和真实性,即允许用户控制其他人对其数据的使用,以及所提供数据的真实有效性。

4)数据伦理

数据伦理,主要研究和评估与数据、算法和相应实践相关的伦理问题,以制定和支持具备良好伦理的解决方案[4]。

数据伦理涉及的问题有:

  • 所有权,即谁具有数据的所有权;

  • 透明度,即数据的主体应该知道他们的数据正在被收集、存储及使用;

  • 隐私性,主要保护个人可识别信息;

  • 目的性,例如即将如何处理这些数据。

其中对于算法伦理,通常考虑的是算法偏差。算法偏差涉及了算法使用过程中的各个环节,如数据收集模块,所获得的训练数据集可能存在表示偏差;在特征工程模块,对不同特征的选择和使用会引入相应偏差;在算法预测模块,对结果的测量估计也会引入偏差。

为了在数据科学研究过程中避免数据伦理问题,我们需要在研究过程中对以上问题进行思考和检查,例如是否对训练数据进行验证,以确保训练数据具有代表性;或我们是否研究了数据中可能存在的偏差来源等。

04

数据科学生命周期

数据科学的生命周期包括以下五个部分[5][6]:

  • 应用需求,对具体应用进行问题定义;

  • 数据准备,包括数据集确定、数据集选择、数据集成、数据质量优化等;

  • 数据存储和管理,涉及大规模分布式数据存储、大数据处理平台、数据存取接口、数据来源等问题;

  • 数据分析,使用统计或机器学习等方法进行数据挖掘;

  • 方法实施,最后进行数据和分析结果的解释说明。

05

数据科学系统框架

上图展示了两个经典的大数据系统结构[7][8],以后者为例,从数据收集、处理到最终存储,数据科学研究涉及了多个模块和多种技术,共同对数据进行处理分析,最终形成有价值的数据得以存储和利用。其中数据处理模块,涉及到信息抽取、预处理、数据处理、数据集成等多个领域,每一领域又包含了多种具体技术,如信息抽取这一分支,包含了分类、关系抽取、结构抽取、基本信息抽取、实体识别等多项技术。

06

数据科学所属范畴

数据科学本质上可看作是计算机科学与统计学的结合和扩展[9]。

数据科学领域的核心竞争力可概括为:

  • 至少有一个数据工程或数据分析支柱领域的深入知识(专家级别);

  • 具有其他三大支柱领域的实用知识;

  • 对至少一个(最好是两个)应用领域有深入了解(几乎达到专家水平);

  • 具有团队合作和沟通能力。

07

问题思考

最后,报告总结了五点数据科学领域中值得思考的问题:

  • 数据是数据科学研究的核心,而数据的规模和复杂性均在不断增加;

  • 正确地处理使用才能发现数据潜在的价值;

  • 数据科学是多方面和多学科的科学;

  • 数据科学可能还不是一门学科,但可以成为一门学科;

  • 本文提出的观点仅从STEM(计算机科学)角度进行思考和解读。

··参考文献··

[1] DAMA UK Working Group, 2013

[2] https://www.kdnuggets.com/2017/07/4-types-data-analytics.html

[3] https://dataprivacymanager.net/security-vs-privacy/

[4] Florid, L., and M. Taddeo. "What is Data Ethics?" Philosophical Transactions of The Royal Society A Mathematical Physical and Engineering Sciences 374.2083(2016).

[5] Shearer, C.. "The CRISP-DM model: the new blueprint for data mining." International Journal of Data Warehousing and Mining, (2000).

[6] Finance, Q. "The Art of Statistics: Learning from Data." (2019).

[7] Sang, G. M. , X. Lai , and P. D. Vrieze . "A reference architecture for big data systems." 2016 10th International Conference on Software, Knowledge, Information Management & Applications (SKIMA) IEEE, 2016.

[8] Salma, C. A., B. Tekinerdogan , and  I. N. Athanasiadis . "Domain-Driven Design of Big Data Systems based on a Reference Architecture." Software Architecture for Big Data and the Cloud (2017):49-68.

[9] Ullman, J., "The Battle for Data Science." Bulletin of the IEEE Computer Society Technical Committee on Data Engineering (2020).

讲座录播|数据科学的基本方法相关推荐

  1. python数据正则化_Python数据科学:正则化方法

    本文主要介绍,Python数据科学:正则化方法.正则化方法的出现,通过收缩方法(正则化方法)进行回归. 正则化方法主要包括岭回归与LASSO回归. 一.岭回归 岭回归通过人为加入的惩罚项(约束项),对 ...

  2. 深度学习数据更换背景_开始学习数据科学的最佳方法是了解其背景

    深度学习数据更换背景 数据科学教育 (DATA SCIENCE EDUCATION) 目录 (Table of Contents) The Importance of Context Knowledg ...

  3. 刚认识女孩说不要浪费时间_不要浪费时间寻找学习数据科学的最佳方法

    刚认识女孩说不要浪费时间 重点 (Top highlight) Data science train is moving, at a constantly accelerating speed, an ...

  4. julia语言科学计算_Julia –数值计算和数据科学的新方法

    julia语言科学计算 Julia编程语言由Jeff Bezanson,Stefan Karpinski和Viral B Shah于2009年创建. 自2012年以来,它已广泛发布 ,此后,它的贡献者 ...

  5. 数据 正则化 python_Python数据科学:正则化方法

    接之前的线性回归文章,传送门如下. 上面这篇文章是利用方差膨胀因子,去诊断与减轻多重共线性对线性回归的影响. 需要人为介入(根据得到的方差膨胀值去判断),耗费过多的时间. 于是便有了正则化方法的出现, ...

  6. 时序数据取样方法_数据科学的抽样方法

    时序数据取样方法 语境 (Context) In most studies, it is pretty hard (or sometimes impossible) to analyse a whol ...

  7. 数据科学的四种参数估计方法

    摘 要 文章从概率.统计这两大基本概念入手,通过构造一个基本问题,利用四种参数的估计方法及其思路分别对问题进行分析与解答,从而厘清四种方法各自的特征以及之间的差异之处. 关键词 极大似然估计 最大后验 ...

  8. 独家 | 为你的数据科学项目提供有力支撑——3个寻找数据集的最佳网站

    作者:Angelia Toh,Self Learn Data Science联合创始人 翻译:李海明 校对:冯羽 本文约1000字,建议阅读5分钟 本文为你介绍3个寻找数据集的最佳网站. 标签:冠状病 ...

  9. 跨学科融合,塑π型人才 | 数据科学研究院第四届RONG奖学金答辩会成功举办...

    为服务国家大数据发展战略,打造多层次.多类型的大数据人才队伍,清华-青岛数据科学研究院(以下简称:数据院)"RONG"奖学金答辩会于2019年12月27日成功举办. "R ...

最新文章

  1. modbus报文解析实例_万字长文!春招面试总结,鹅厂T3Android高频面试真题+解析...
  2. Tcpdump配合Tcpreplay回放实现网络探测
  3. 字节旗下火山引擎违规分发SkyWalking,更改所有包名、删除Apache基金会Header...
  4. 互相关延时估计加权函数性能分析
  5. LV 旗下公司的识别算法: 4 秒鉴定假包,准确率达 99.1%
  6. java 免费cms_开源 免费 java CMS
  7. 算法: 最大矩形面积85. Maximal Rectangle
  8. Ubuntu | ubuntu下安装edge
  9. ant linux版本下载安装,linux下ant的安装
  10. vert.x web模块(七)
  11. 软件测试工程师的工资有多高?
  12. python模糊图像判断
  13. c语言双精度浮点数,使用C语言的十进制(浮点数,双精度)
  14. Excel如何直接根据数据画出统计图
  15. 11个程序员必备简捷开发辅助工具
  16. python一次性封装多条sql语句(begin end)
  17. 注意,你注册的假1024可能就是它
  18. matlab网络图,Matlab实现网络拓补图
  19. 今日记录:JIRA使用指南
  20. 泰安柒柒:做国外问卷调查,不能只看收入

热门文章

  1. 哥斯拉配置和流量分析
  2. 防红跳转(QQ域名防报毒)网站的思路和代码
  3. 实战:女包品牌如何透过咨询手法实现3.5倍的收入增长
  4. 直播带货依然是一种平台经济,与电商并没有本质上的区别
  5. uniapp 微信小程序 选择地图位置并返回经纬度及详细地址(uni.chooseLocation和高德地图api两种方式实现)
  6. [转载]AMOLED结构详解,BOE专家给你分析驱动补偿
  7. 【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(6):子空间的交与和
  8. 拉卡拉手机刷卡器音频通讯技术原理初步分析
  9. (Android机)不要随意安装Xposed插件,不然可能遭受财产损失
  10. 算术平均 几何平均 平方平均 调和平均