新工科背景下大数据专业导论

课程的改革与探索

张祖平

中南大学计算机学院,湖南 长沙 410083

 

摘要在申报与建设数据科学与大数据技术专业的热潮中,专业培养体系与相关课程大纲一直是各个高校体现其特点的内容。针对专业导论课程的培养目标,结合新工科研究与实践项目的要求,论述了专业导论的教材准备、课程定位及具体教学内容。通过在专业课程中引入实践教学,实现专业能力体系的培养目标,让学生在进入大数据专业的初期就形成良好的实践意识,并对典型技术有切身体会,从而达到大数据专业的知识水平与能力要求。

关键词新工科;大数据专业;导论课程;能力体系

论文引用格式:

张祖平,新工科背景下大数据专业导论课程的改革与探索. 大数据[J], 2018, 4(6):38-45

Zhang Z P,Reform and exploration for introduction course of big data professional under the background of emerging engineering education.Big data research[J], 2018, 4(6): 38-45

1 引言


随着移动互联网的兴起,全球数据呈爆炸性增长,数据规模大约每两年翻一番。而随着人工智能环境下物联网生态圈的形成,数据的采集、存储、分析处理、融合共享等技术需求都能得到响应,各行各业都在体验大数据带来的革命,与大数据相关的技术人才需求激增。据预测,中国近年内大数据人才缺口达200万人,全世界相关人才缺口超过千万之多,因此培养大数据技术人才的重任落到了高等院校身上。从事数据统计、分析和应用的人才已经难以适应大数据时代的新要求。大数据具有体量巨大、速度极快、类型众多、价值巨大的特点,对数据从产生、分析到利用提出了前所未有的新要求。高等教育只有转变观念,更新方法和手段,寻求变革与突破,才能在大数据与人工智能的信息大潮面前立于不败之地。我国教育部门为了响应社会发展需要,于2016年开始正式开设“数据科学与大数据技术”本科专业与“大数据技术与应用”专科专业。近几年,全国形成了申报与建设大数据相关专业的热潮。

随着大数据专业建设的推进,国内对专业知识体系与能力体系进行了探索,同时也出现了对专业课程建设与人才培养模式的讨论,力图探索大数据教育体系中可采用的具体策略和方法。从2017年开始,全国范围内开始讨论新工科,由此催生了《教育部办公厅关于推荐新工科研究与实践项目的通知》的发布,同时也开始了对新工科背景下大数据专业建设的探究。大数据专业的培养体系在专业教育人才的通力协作下逐步形成,各类适用于不同高校大数据专业特点的培养方案与课程大纲也日渐成熟。

作为专业重要课程之一的专业导论课程历来受到各类高校的高度重视,专业导论课程一般是在学生第一年统一基础教学后开展的,旨在给学生普及相关专业知识,引导学生进行专业学习。而在新工科背景下,大数据的专业导论具有不同的要求与特点。

2 专业导论课程大纲

“数据科学与大数据技术导论”是一门面向本专业的导论性课程,旨在让学生在大学入学最初阶段就对本专业的发展历史、知识结构、培养目标与要求及与数据科学与大数据技术相关的基础知识、典型技术、具体应用等有直观的认识。区别于新生课程的普识性介绍,该课程的相关内容偏专业,目标是让学生对本专业的知识及培养要求有相对全面而直观的了解,同时该课程也会概述性地介绍与计算机学科相关的内容及典型人物,以激发学生的学习兴趣,进一步了解设置新专业的历史背景与总体要求。

“数据科学与大数据技术导论”课程的基本要求包括以下几个方面。

● 知识方面:较好地掌握数据科学与大数据技术的发展历史及相关典型概念,如与数据相关的基本概念、与数据特征相关的测度概念及与大数据相关的5V特性等;了解典型的大数据分析环境包括的技术体系,如Hadoop;了解计算机典型的基础概念,如数据、算法;了解专业需要掌握的知识体系及课程要求;对大数据技术的典型应用有相对直接的了解,并能联想到生活中的大数据技术应用场景。

● 能力方面:使学生对本专业的课程体系有区别与选择的能力,对典型的大数据分析环境的技术体系有一定的判别与选择的能力,对应用系统是否要用到大数据平台有一定的判别能力,对整个专业的知识体系有一定的预判与认知。

● 素质方面:对数据科学与大数据技术专业的相关基础知识有相对全面的了解,逐渐形成采用数据分析的思维解决实际系统需求的意识;能够通过网络搜索平台找到大数据分析平台需要的典型开源性工具软件,尝试通过网上教学视频进行安装与调试,逐步形成直观认识与一定的学习、操练兴趣;通过课外导学的模式,从网上大量相关的实例中得到启发,从而提升自主学习和终身学习的意识,形成不断学习和适应发展的素质。从以上分析可以看出,课程大纲响应了新工科突出能力与新技术的特点,从知识、能力与素质上提出了具体要求。

3 教材的准备与课程定位

为了适应“数据科学与大数据技术导论”课程的课程大纲,笔者组织相关教学团队,编写了《数据科学与大数据技术导论》教材。区别于数据科学导论方面的教材或大数据技术导论教材,笔者单位的教材既包括数据科学与大数据技术专业的发展历程、专业知识要求与技能基本要求等,也包括有关数据科学的基本概念、数据挖掘的基本方法及大数据分析的主要技术等,对大数据分析的各流程中采用的关键技术及核心技术进行了梳理,对主要的大数据技术生态体系进行了介绍,最后基于实际项目,介绍了医疗大数据与智能城市交通大数据,既为学生提供了基本的数据科学与大数据相关知识,又介绍了实际应用的技术与高层次平台或项目申报需要表达的与大数据相关的内容,同时通过20个自主实验强化学生的实践能力。 本课程首先介绍了数据科学与大数据技术专业的产生背景与发展历史、专业的特点与综合要求、专业相关的完整知识体系与技能体系,之后介绍了与本专业密切相关的专业,如计算机科学与技术、统计学等,分析了其与这样的专业的关联关系,还对数据科学与大数据技术专业的出路与就业情况进行了简述。专业课程体系总体架构如图1所示。

图1 专业课程体系总体架构

由于数据科学与大数据技术专业较新,可供借鉴的历史不多,大家各自的理解不同,在课程体系方面形成了“百花齐放”的局面,究竟哪个是最好的、最完整的,暂时没有结论。笔者提出的专业课程体系供大家参考,也供本专业学生选择课程时参考。

针对以上专业课程体系,专业导论课程需要将专业主要的知识点串接起来,既要从各主要课程中抽出重点的知识进行综述性的讲解,又要兼顾各知识间的关联关系,同时由于课时的约束,内容不可能讲得很多,也不可能讲得很深,这是一个较难掌握的平衡度。

在技能体系方面,笔者认为数据科学与大数据技术专业的学生需要学习从数据获取到数据分析应用整个流程的各种技术与技能。目前,对本专业的学生或从事本专业技术工作的人员在专业技术方面没有明确的规定,但经过了几年的专业建设与讨论,并综合考虑了社会对专业人才的实际需求,形成了如图2所示的专业技能体系,不要求学生掌握所有的技术,但学生需要对某些部分或环节有选择的能力与熟知其中一二的基础。

图2 大数据技能体系


一般的专业导论课程主要是专业知识体系的串接,即使讲到技能体系,也只是一个概括性的介绍,如概述技术的名称与具体技术特点或要求等,不会要求学生有实践动手的机会。但从以上技能体系分析来看,数据科学与大数据技术专业要求掌握的技术可以说既具体又丰富,而且复杂性高。在新工科背景下,如果数据科学与大数据技术专业的学生在专业导论课程的学习时,没有形成自己动手的意识或基本的动手能力,就很难达到能力要求,也很难满足专业就业与科研的需要。因此笔者学校在实际教学时,专业导论课程对学生的动手能力提出了具体的要求。

4 专业导论课程教学内容

针对专业导论课程的大纲及定位,笔者学校将实际课程教学分为5个章节,其中第1章为专业概论,主要介绍数据科学与大数据技术专业的产生背景与发展历史、专业的特点与综合要求、专业相关的完整知识体系与技能体系,还介绍了本专业和与其密切相关的专业(如计算机科学与技术、统计学等)之间的关联关系,本章还对本专业的出路与就业情况进行了简述。

第2章为数据科学与大数据基本概念,主要介绍与数据科学与大数据技术相关的基本概念、相关技术特点、对应的社会岗位需求及对学生的知识、能力、素质要求。与数据科学与大数据技术相关的主要概念包括基本概念(如信号、数据、信息、知识等)和成体系的概念(如数据科学、数据挖掘、数据库、大数据等)。

第3章为大数据核心技术,大数据技术主要有6个核心部分:数据采集、数据存储与管理、数据预处理、数据清洗、数据挖掘、数据可视化。当然也有很多文献把大数据技术划分为5个部分,即将数据预处理合并到数据采集或数据清洗中。总体来说,大数据核心技术是大数据处理的各个核心环节的关键技术。

第4章为大数据环境与技术,主要介绍大数据运行环境及典型技术。大数据技术生态一般是指在数据采集、数据整理、存储、运算、数据展示以及系统维护等各个层面用到的各类相互关联的技术、软件、工具等的集合。以Hadoop为例,其维护工具是Ambari,采集工具是 ETL,管理工具是Sqoop、 NiFi、 Phoenix等,存储工具是HDFS、HBase、Hive等,运算工具是MapReduce、Spark等, 联机分析处理(online analytical processing, OLAP)的关键工具是Kylin,数据展示包括很多技术或工具,Hadoop自带的是Zeeplin。

第5章为大数据应用系统,主要介绍2个典型的大数据应用系统及实用技术展示,包括医疗大数据、交通大数据等具体应用实例,进一步强化大数据相关技术。此外,部分相关项目立项时的一些文档内容可供大家将来参与类似项目时参考,如医疗大数据主要参考 “医疗大数据应用技术国家工程实验室” “医学大数据协同创新中心”“数据科学与大数据技术专业”等的申报材料,交通大数据主要参考“大联合交管中心系统”的初步设计、详细设计、技术报告及用户手册等文档。

5 专业导论的实践内容

为了响应教育部新工科研究与实践项目的要求,从本专业导论课程开始设立相关的实验环节,通过知识主线与技术主线把相关课程串接起来,力争让学生尽早有培养自己动手能力的意识与综合利用各种技术与平台的能力。

首先是基本编程能力的强化训练,如讲述第1章绪论时引出4个实验。

● 实验1:任选编程语言,实现自然数阶乘累加,如1!+2!+3!+…+n!,其中n为输入变量。

● 实验2:R for Windows下载与安装、测试演示(graphics)、测试数学函数。

● 实验3:Matlab下载、安装、测试演示、测试 fplot( )函数并生成曲线图。

● 实验4:ECharts下载、安装与典型图表可视化。

大二学生已经有了一定的编程基础,此时,再强化训练细节编程(阶乘累加中,当n较大时需要细致处理)及常用统计分析软件的常用功能(如R语言、Matlab及可视化工具ECharts等)的使用。这有一定的挑战性,但是图形结果的呈现也会给学生带来一定的兴趣。比如,实验1看起来比较简单,一般理解就是一个累乘循环、一个累加循环就可以了,但实际上,由于累乘的结果增长很快,需要考虑整数的位长问题。当一般的位长不够时,就需要考虑如何保存精确的整数,当n增长到比较大的数值(如20以上)时,处理起来非常复杂(不同编程语言有不同的位长限制),这就要求有较好的综合编程能力。有些学生可以做到结果用文件输出,n只受计算能力的限制;有些学生开始只能做到n为10左右,但经过多次尝试,n就可以越来越大。经过这种从看起来简单到实际具有一定挑战性的综合编程训练,学生对自己选择的编程语言的感受是非常深刻的。

在第2章安排了4个实验,具体如下。

● 实验1:任选编程语言,实现数组的集中趋势测度。

● 实验2:任选编程语言,实现数组的离散程度测度。

●实验3:下载并安装Oracle,实现在数据库管理员(database administrator,DBA)用户系统下的用户管理。

● 实验4:执行典型的SQL操作等。这部分的实验逐步转向专业,即数据科学中的数据统计与数据库的相关操作,难度不大,但有专业性。

其中第2章中的实验1、实验2主要是数据统计方面的实验,是一些计算公式的实验,难度不是很大,但能形成数据统计的感性认识。实验3、实验4主要是数据库操作,目标是让学生对大型数据库的用户管理及基本的SQL中九大命令的操作有真实的感受。

在第3章安排了5个实验,包括:通过开放数据库链接(open database connectivity,ODBC)导入/导出数据;网络蜘蛛的搜索与应用;SQL查重与去重;利用SQL实现数据集成;使用ECharts与Excel实现数据库表的数据可视化。此部分更趋向于专业,且要求比较综合,逐步提高了实验的难度与综合性。此章的实验逐步向大数据技术靠近,有多种方式的数据采集、数据的预处理、数据整合与融合及分析结果呈现等,各个实验都有一定的设计性与综合性,要求也就相应地提高 了。

第4章介绍了典型的大数据技术的相关操作,而第5章安排了2个设计性的实验,包括:分类统计重症肌无力诊疗数据库中的首发症状类别及与年龄的关联关系;基于交通大数据中环线路面卡口研判。难度不言而喻,同时也不要求所有学生都做到,力争通过演示的形式,给大家一个参考,让学生感受真正的大数据分析与一般的统计分析差别到底在哪里,从而使学生对大数据实际分析有一个感性的认识。

6 结束语

我国于2016年开设了数据科学与大数据技术本科专业,国外虽然有数据分析工程的本科专业或硕士专业,但专业培养方案与课程大纲可供借鉴性较小。本文针对数据科学与大数据技术专业中重要的专业导论课程,从知识体系与能力体系等方面分析了培养的要求与目标定位,在知识点的串接、动手能力意识的培养与实际操作方面提出了可供参考的方案,该方案的特点是针对新工科的要求,在具体教学中引入了大量的专业实践,为学生形成良好的能力训练意识与真实感受大数据提供了机会。未来需要进一步完善的是针对课程教学与教材,形成数据科学与大数据专业实践资源管理与服务平台。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

作者简介

张祖平(1966-),男,博士,中南大学教授、博士生导师、计算机科学与技术系主任,大数据技术及应用团队负责人,中南大学“531人才计划”第二层次人才,中国计算机学会高级会员。加拿大西安大略大学(UWO)国家公派访问学者。

《大数据》期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

关注《大数据》期刊微信公众号,获取更多内容


往期文章回顾

大数据系统软件创新平台与生态建设

大数据驱动5G网络与服务优化

新工科背景下的大数据体系建设探析

专题导读:新工科背景下的大数据人才培养及课程体系设计

“数据科学”课程群与  “数据科学导论”课程建设初探

大数据技术原理与应用课程建设经验分享


新工科背景下大数据专业导论课程的改革与探索相关推荐

  1. 新工科背景下计算机类专业英语教学,外国语学院教师参加“新工科背景下高校外语教学改革与专业建设高端论坛”...

    近年来,我国积极推进新工科建设,先后形成了"复旦共识"."天大行动"和"北京指南",奏响了我国新工科人才培养主旋律,开拓了工程教育改革新路径 ...

  2. 机械工程专业与c语言的联系,新工科背景下的机械专业C语言课程改革

    吕程 摘 要:详细分析了目前高校C语言程序设计课程教学中存在的问题,针对教学模式及内容陈旧枯燥,脱离工程实际,缺乏与相关专业工程背景有效结合,学生缺乏学习兴趣等问题,结合"新工科" ...

  3. 专题导读:新工科背景下的大数据人才培养及课程体系设计

    专题:新工科背景下的大数据人才培养及课程体系设计 导读: 当今社会已进入大数据时代,为了顺应时代发展的潮流,国内外各类高校陆续开始聚焦大数据,布局新学科,加快人才培养的步伐.目前教育部已经正式批 准2 ...

  4. 新工科背景下的计算机类专业人才培养探讨

    新工科背景下的计算机类 专业人才培养探讨 马礼,张永梅 北方工业大学计算机学院,北京 100144   摘要:新工科顺应社会和技术发展,对人才培养提出了新的挑战.从构建计算机类专业人才培养的角度,对理 ...

  5. 新工科背景下的大数据体系建设探析

    新工科背景下的大数据体系建设探析 王元卓,于建业 中国科学院计算技术研究所,北京 100190 北京物资学院信息学院,北京 101149   摘要:大数据产业迅猛发展,对大数据人才培养提出了巨大挑战. ...

  6. 征文 | “‘互联网+’背景下大数据与税收征管的深度融合研究” 专题征文启事...

    党的十九大报告提出,推动互联网.大数据.人工智能和实体经济深度融合.国务院<促进大数据发展行动纲要>提出"将大数据作为提升政府治理能力的重要手段".随着互联网.大数据. ...

  7. C语言在建筑专业的应用,新工科背景下基于OBE的《C语言程序设计》课程建设

    摘要 针对高校工科专业<C语言程序设计>课程教学,分析了目前课程教学存在教材的内容组织不合理.教学模式落后.教学资源与教学匹配度不好等问题,这些问题严重阻碍了开展新工科背景下的以" ...

  8. 大数据应用技术课程教学改革与实践

    点击上方蓝字关注我们 大数据应用技术课程教学改革与实践 夏大文1,2, 王林1,2, 张乾1,2, 魏嘉银1,2, 冯夫健1,2, 李华青3,4 1 贵州民族大学数据科学与信息工程学院,贵州 贵阳 5 ...

  9. 大数据专业导论 Linux 系统的基本应用

    1.装虚拟机 (2条消息) VWare安装CentOs_宁然也的博客-CSDN博客 只看安装虚拟机部分. 1.2安装虚拟机打开后发现蓝屏 找到实体机的  控制面板---程序---启用或关闭window ...

最新文章

  1. arcsde安装步骤_ArcGIS 9.3 安装之 SDE的安装及使用
  2. django中的缓存 单页面缓存,局部缓存,全站缓存 跨域问题的解决
  3. C++ Primer 5th笔记(chap 16 模板和泛型编程)模板特例化
  4. C++:关于“error C2374: 'i' : redefinition; multiple initialization”
  5. 3DSlicer31:结构的实例分析IGSReader
  6. 百度Create大会:百度AI安全研究的进展与愿景
  7. 计算机软考网络工程师历年真题,计算机软考《网络工程师》考试历年真题精选(1)...
  8. 【线段树】Frog Traveler(CF751D)
  9. mysql 内存溢出_mysql - MySQL在非常大的表上计算性能 - 堆栈内存溢出
  10. awk实战:文件里面全是数字,实现大于100的求和并打印出所在行和这些数字的总和...
  11. 15 张前端高清知识地图,强烈建议收藏
  12. linux shell 基本规范
  13. 手机归属地查询 API 接口
  14. 独立思考,提高效率,做更有意义的事
  15. spass modeler
  16. 【Day5.6】当地人的美食街
  17. 免费SVN、Git项目托管主机及网站介绍
  18. 智能手持终端CPU选型报告
  19. 【Ubuntu】SMBus Host controller not enabled(虚拟机进入不了图形界面)
  20. 双极结型晶体管——三极管理解

热门文章

  1. php页面之间传值_php如何在不同页面之间传值
  2. 黑盒测试概念简述,黑盒测试优缺点、黑盒用例设计方法简单介绍及黑盒测试方法使用总结
  3. Python可视化库matplotlib(基础整理)
  4. [jzoj 5775]【NOIP2008模拟】农夫约的假期 (前缀和+递推)
  5. 数据挖掘初次接触!学习代码
  6. 2013年11月19日
  7. 用spring搭建微信公众号开发者模式下服务器处理用户消息的加密传输构架(java)
  8. MySQL5.7数据库软件下载教程
  9. if函数 字体自动标红_发喜糖!REPT函数和图表订婚了~~
  10. Mysql基础语法DDL、DML、DQL