备注:

最新版本的《数据科学概论》教学大纲,请参考。https://blog.csdn.net/xiongpai1971/article/details/89364071

此外,可以访问https://datascience.neocities.org/以及http://xiongpai.gitee.io/datascience/。

教材

覃雄派,陈跃国,杜小勇. 《数据科学概论》.中国人民大学出版社.ISBN: 9787300252926.

官方主页:[点击链接]

CSDN博客[点击链接]

SINA博客[点击链接]

京东:[点击链接]

亚马逊:[点击链接]

当当:[点击链接]

前言

大数据时代已经来临,数据中蕴含价值。挖掘数据中的价值,可以发现新知,为我们的经济、社会、生活提供决策依据,创造更加美好的生活。

大数据时代需要大量合格的数据科学家。数据科学家应该具有宽广的理论视野,同时具有扎实的技术功底。

数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科。它研究数据的各种类型、状态、属性及其变化规律,它研究如何对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。

随着大数据时代的到来,以及数据科学的兴起,来自计算机、统计学、经济学、金融学、档案学等不同专业的师生,急切需要一本内容全面、论述清楚、通俗易懂的入门或者导论性质的教材。《数据科学概论》教材,顺应这个需求。本教材对数据科学的核心问题,即对数据进行分析,从而提取价值,获得对事物的洞察和理解的各种技术手段,进行全面的论述。

这本教材为《数据科学概论》课程而设计,这是一门入门和统领式的课程,为后续课程,比如深度学习、统计分析、数据挖掘、机器学习等课程的学习,打下坚实的基础。有利于培养新一代数据科学家,为各行各业的数据处理,提供急需的人才。

本教材的主要特点

(1) 兼顾理论、技术、方法的论述和实践性

本书包括四大模块,前两个模块主要讲述数据科学的基本概念、原则、方法,以及各种类型数据的管理和分析技术,后两个模块介绍具体的平台和工具,以及数据科学的成功案例和具体领域的实践。读者不仅知其然,还可以知其所以然。

这四大模块简单介绍如下,(1) 概论:数据科学的基本概念、原则、和方法。(2)数据和数据上的计算:主要数据类型包括,结构化数据、文本、社交网络、时间序列、轨迹数据等。主要分析方法包括,统计分析、机器学习(深度学习)、数据挖掘等。批处理、流数据处理、交互式处理。(3)基础设施、平台和工具:介绍云平台、数据库、Hadoop/Spark大数据平台、Python语言、统计分析/数据挖掘/机器学习工具库。传统的关系数据库技术和系统,新型的noSQL技术和系统,以及文本分析、社交网络分析的工具,在第二部分的各章进行简单介绍。(4)数据科学案例和实践:数据科学成功案例,量化交易实践。

在教材编写的过程中,我们利用开源的数据集以及工具,同步建设案例库。方便学生在学习的过程中,通过运行这些案例,加深对数据科学的重要概念和技术原理的理解和运用。

使用本教材,通过《数据科学概论》课程的学习,学生们将具备扎实的基础理论、系统的知识结构、以及统计分析/数据挖掘/机器学习的实践能力。

(2) 清晰的内容展示路线图

本教材内容广泛、全面,为了把内容有效组织起来,本教材采用深度展开和宽度展开的内容展示路线图。

(a) 理论部分,先由浅入深,再宽度展开,旨在培养学生宽广的视野,形成完整的知识体系。在介绍数据科学基本概念、原则和方法的基础上,本教材按照在线事务处理和数据服务、在线数据分析和结构化数据分析、到数据的深度分析(包括统计分析、机器学习和数据挖掘)的路线,由简单分析到复杂分析,层层引导用户了解数据的管理和分析的主要技术和方法。

然后,本教材接着进行宽度展开。分别介绍了批处理模式之外的流数据处理,结构化数据之外的文本数据、社交网络数据、时间序列数据、轨迹数据等的管理和分析技术与方法。

(b) 实践部分先宽度展开,再深入量化交易领域,旨在培养学生的动手能力和浓厚兴趣。

通过深度展开和宽度展开的论述,本教材全面讲述各种类型的数据及其蕴含的价值,以及用何种技术可以对这些数据进行分析,以便发挥其价值。

(3) 案例式、形象化论述

作为一本入门的教材,本教材避免陷入数学公式的复杂推导过程(必要的数学知识是需要的)。

在对数据管理和分析的主要技术和方法的介绍中,我们采用直观的案例、形象化的图形等手段,通过浅显易懂的语言,深入浅出地进行论述。使得本书的内容不会枯燥无味,方便读者迅速掌握这些概念和技术的要领。让不同背景的读者感受到数据的分析和处理,是如此的有趣和有价值。

我们认为,作为一本导论性质的教材,采取这种方式是合适的。不仅计算机专业的学生很容易理解和把握书本的内容,其它专业比如经济学、金融学、统计学、档案学、新闻学等专业的学生,理解起来也不会有太大困难。

数据科学已经渗透到各行各业,不同专业背景的读者,都可以把本书论述的数据处理方法,应用于本专业的研究,解决实际问题。比如来自新闻专业的学生,可以利用文本分析技术和可视化技术,对新闻进行分析和可视化等。这些专业的学生,正急需这样一本入门的教材。

附录

[1]《数据科学概论》资源(code,ppt...)下载[点击链接]

[2]数据科学概论课程设计.大数据, 2017,06: 102-111.[点击链接]

[3]教师服务登记表:[点击链接]

《数据科学概论》教材介绍相关推荐

  1. 01.数据科学的简单介绍(概论)

    前言:文章基于人大的<数据科学概论>,主要是总结第一章-数据科学概论 的一些重点内容.里面有些比较细的概念,有心的读者可以自己去查找资料. 文章目录 1.1数据科学的定义 (1)数据科学 ...

  2. 数据科学概论Learning Road Map

    <数据科学概论>的学习路线图(Learning Road Map) 2022-03-25 Revision 本文档同时在如下网址提供: 数据科学概论学习路线图(Learning Roadm ...

  3. 数据科学概论课程设计

    "数据科学概论"课程设计 覃雄派1, 陈跃国1, 杜小勇1, 王伟娟2 1. 中国人民大学信息学院,北京 100872 2. 中国人民大学出版社,北京 100872 摘要:数据时代 ...

  4. 05.数据的深度分析(数据挖掘、机器学习)--《数据科学概论》

    前言:基于人大的<数据科学概论>第五章,数据的深度分析(数据挖掘.机器学习).主要是机器学习与数据挖掘.具体的算法.主流工具.特征选择的内容. 文章目录 一.机器学习与数据挖掘 (1)什么 ...

  5. R语言基本介绍 | 数据科学、Rstudio介绍、快捷键操作、R代码常见命令、数据类型、示例代码等等

    一.数据科学 数据科学:计算和统计技术的综合应用,用于解决一些真实世界中的问题. 计算:获得结果 统计:分析和建模 真实世界:机器学习.AI 数据科学Data Science = 统计+数据处理+机器 ...

  6. 如何学习大数据,到底怎么学?数据科学概论与大数据学习误区在哪

    数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知." 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问 ...

  7. 大数据到底怎么学: 数据科学概论与大数据学习误区

    数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at K ...

  8. Interview之DS:人工智能领域求职岗位—数据科学家/数据科学工程师的职位简介、薪资介绍、知识结构之详细攻略

    Interview之DS:人工智能领域求职岗位-数据科学家/数据科学工程师的职位简介.薪资介绍.知识结构之详细攻略 目录 数据科学家/数据科学工程师的职位简介 资讯指数 1.各大互联网巨头的薪资介绍 ...

  9. 谷歌机器学习主管:10年自学数据科学的3点心得体会

    全文共3243字,预计学习时长10分钟 来源:Pexels 数据科学.机器学习和分析被认为是最热门的职业之一. 工业界.学术界和政府对熟练数据科学的从业人员的需求正在迅速增长.因此,目前的" ...

  10. 大数据入门课程_我根据数千个数据点对互联网上的每门数据科学入门课程进行了排名...

    大数据入门课程 by David Venturi 大卫·文图里(David Venturi) A year ago, I dropped out of one of the best computer ...

最新文章

  1. DPU(Data Processing Unit)数据处理器
  2. iOS 录音功能的实现
  3. boost::gregorian模块实现使用公历精确地推进一个月的测试程序
  4. 项目经理主要工作职责
  5. windows桌面待办事项_有没有一款使用简单的电脑桌面待办事项提醒软件
  6. java aes mysql blob_使用带有ORDER子句的AES_DECRYPT在MySQL中返回BLOB数据
  7. cad和python哪个好学_cad制图工资一般多少 就业前景好不好
  8. 创建win10介质进度为0_win10介质创建工具(media creation tool)下载
  9. 给网友良少的一封回信,希望能结识更多的志同道合者!
  10. BP神经网络的应用—分析
  11. zabbix为啥持续报警
  12. 已知url地址,批量下载图片到指定目录
  13. 《百度输入法》导致EXCEL 无法使用快捷键Ctrl+;插入日期
  14. SGU 水题集合2 SGU112 SGU113 SGU114 SGU115
  15. 如何在简历中使用STAR法则
  16. (多方法)彻底解决MAC终端[进程已完成]的“死机”现象
  17. 【Linux】Ubuntu20网络频繁掉线解决
  18. HDMI 转换芯片——MS1836S
  19. TIMESAT 无格式文件迭代转tif
  20. 「GoTeam 招聘时间」金山办公 WPS Go 中高级开发(广州/珠海)

热门文章

  1. 背景图(css sprite)尺寸设置,DIPS,设备像素比,Retina,,border 1px问题
  2. BISS绝对值编码器_TI方案_线路延迟补偿
  3. Fiddler中文版安装及使用
  4. 计算机安装pdf打印机驱动,虚拟打印驱动PDF打印机
  5. vue 后台系统引入pdf安装包
  6. 基于Python的文本分析
  7. 渗透测试中linux常用命令
  8. lopatkin俄大神精简中文系统Windows 10 Pro 18363.592 19H2 Release x86-x64 ZH-CN SM
  9. 【matlab 基础篇 01】快速开始第一个程序(详细图文+文末资源)
  10. 系统工具-文件夹同步软件