近期,由清华大学研究生院和数据科学研究院(以下简称:数据院)共同开设的清华大学大数据能力提升项目《大数据系统基础》实践项目期末答辩在清华大学六号教学楼顺利举行。20位企业导师作为评审参与答辩成绩评分,他们的评分与数据院副院长、授课教师王建民和授课教师徐葳拥有同样的比重,企业导师和授课教师从数据思维的运用、分析工具使用的成熟度、项目成果质量等方面分别考察一个学期以来同学们的学习、实践成果。

回顾过去的四个月,提供课程实践项目的企业和跨学科组队共同完成项目的学生在相互的沟通磨合之中一起成长进步。去年9月,数据院面向对数据分析技术有实际需求的企业为该课程广泛征集实践项目,社会反响强烈。随后数据院针对报名企业组织了项目征集答辩会,近30家企业代表纷纷登上讲台从各自的企业情况、项目背景和需求三方面做了简要介绍。经过选课学生和授课老师的激烈“择选”,最终21个项目入选该课程。经过11月中期答辩的考验和锤炼期中答辩报道,同学们对授课老师和企业导师针对性的点评和指导进行了充分的消化吸收,本次期末答辩同学们的表现可圈可点,王建民老师表示:“与期中答辩相比,可以看出同学们利用工具进行数据分析的水平显著提高,这离不开团队成员的相互协作,更离不开企业导师的大力支持,感谢大家对这门课的付出。”

各小组代表答辩中

三尺讲台,各组纷纷彰显“真功夫”

期末答辩是对同学们《大数据系统基础课》实践项目最终成果的考核,考察同学们是否能很好地将大数据理论知识的积累转化为项目的实践能力,做项目的过程中同学们运用所学知识,在企业导师的指导下也取得了一定的成果。李宣静同学是天津瑞能电气“风机故障检测”项目组的主要答辩人,她表示:“我们都是第一次接触实际的风机故障识别问题,对业务的理解是我们遇到的第一个挑战。当时企业没有数据监测平台来实现产品的全生命周期管理,对于没有业务背景的我们来说,做工作等同于‘盲人摸象’。这是我们遇到的第二个挑战,也是机会切入点。”随着对企业需求的充分了解,小组同学决定从挖掘风机运行数据下手获取业务经验。他们利用卷积神经网络和2014年诞生的专注于梯度提升算法的机器学习函数库XGBoost,整合了192类故障及发生频次,最终实现了故障自动诊断分析识别和风机发电功率预测等功能,并搭建了风机状态监测平台(监测平台:http://101.5.211.17:8000/index/),实现了故障自动诊断分析识别和风机发电功率预测等功能。

来自工业工程系的王明哲同学所在的由艾漫数据提供的“自然语言处理技术在文娱行业应用”项目组。他坦言:“我们组的同学来自工业工程系、机械工程系、微电子系等,没有一位人文社科专业背景的同学。平时接触的工业企业居多,这个来自文娱行业的项目对我们来说也是一个很大的挑战。”基于深厚的理工科背景,他们迅速在本学期内学习了文娱行业的基本运营规律,并且第一次尝试在实践中应用自然语言处理技术。他们采用深度网络与传统词典及规则集相结合的业内目前最先进的算法模型,建立了基于语句级标注训练的模型,目前模型精度为75%左右(预计模型极限精度为80%左右);随后,小组同学紧跟热点,选择研究了奚梦瑶维密秀摔倒事件前后共计10天的微博评论,对数据进行处理并进行可视化的展示,完成了对目标明星、品牌的网络美誉度分析和社交媒体爬取的舆情数据分析。

企业导师和任课老师认真听取汇报

跨学科组队,优势互补,充分协作

每个答辩小组都是由AB班(A班:非信息类学生,B班:信息类学生)学生共同组队完成,跨学科和跨专业的学习也是该课程实践项目的一大特色。组内同学根据自己的优势,分工各有不同。来自医学院A班的崔曦雯同学所在的小组完成的是人人贷公司提供的《基于手机通讯录的欺诈检验》项目,“企业方的邱老师为我们的项目推进付出了很多精力,详细分析了我们并不太了解的互联网金融行业的现状及发展趋势。我们A班的同学逐渐将项目需求和思路明确下来,并与B 班同学进行了背景调研并对研究采用的技术路线进行了探讨,在B班同学带领下我们进行了关于graph embeding以及概率传播的尝试,过程中也遇到了数据量过大导致的计算缓慢、可视化方案设计与制定等实际问题。在合作过程之中,我确实发现A班和B班同学不同的长处。A班的同学擅长了解客户需求、发现业务痛点、确定项目方向。B组同学擅长工程实现。我们意识到,A班同学提出的需求不是都会被B班满足,但大家总能在协作中完成任务。整个学期下来,大家都收获了真实环境下做项目的协作方法,更能体会到企业里产品经理岗和技术岗的协作经验。这些经验对我们将来走入工作岗位太有帮助了!”崔同学有感而发。

“实践出真知”,企业导师为同学们点赞

在大数据系统基础这门课上,同学们不但掌握了大数据管理的工具平台、开发环境和基本原理,培养了数据思维,应用创新能力也得到了显著提升,同学们的表现更是得到了企业导师的充分肯定。百度项目的企业导师孙光明表示:“在扎实的数据技术能力之外,让我们十分惊喜的是同学们敏锐的数据洞察力。他们对脱敏样本数据进行分析后,最终迅速锁定‘基于搜索数据做信息推荐系统’这一选题,使我印象非常深刻。因为这个选题正好恰恰是契合了互联网行业‘信息分发2.0’时代的核心。同学们的项目答辩给我在日后的业务布局中也提供了一种非常新颖的思路。非常惊叹于学生们敏锐的视角,也感谢数据院提供平台,能让我接触90后的想法,我非常受启发。”

企业导师、国家发展改革委员会城市和小城镇改革发展中心智慧城市所所长黎明讲到:“在本次合作项目中,来自建筑、电气等不同背景的同学们利用各自的专业知识,以大数据技术手段对北京市内的充电网络进行了较为客观精准的评价。同学们所做的工作为今后北京市乃至全国范围内的充电网络规划评价体系构建奠定了初步解决基础。

企业导师也对课程实践项目给出了建设性的意见,比如对于项目的规划和整体推进要更具计划性、提前拟定进度表,督促项目组分阶段推进等。

数据科学研究院始终致力于突破传统的教学方式,在大数据能力提升项目中运用更好的、更让学生接受的方式传递数据理念和技术知识。在《大数据系统基础》课中引入来自业界的真实数据和项目正是成功探索之一。本课程将信息类和非信息类的学科组队,以团队的形式做项目,使得跨学科的学生在组内进行充分交流、互相学习、各自发挥专长。课程引入20多个丰富又真实的企业数据并让学生和用户进行交流,使学生在进入职场之前就有机会了解社会和企业对大数据技术解决问题的需求。其项目数量之多、企业支持力度之大,是全国乃至世界少见的教学模式探索,收效颇丰。

校企师生答辩后合影

《大数据系统基础A/B》课程简

本门课程重点介绍大数据管理的工具平台、开发环境、基本原理。使得学生熟悉典型大数据工具与平台的特性,掌握大数据处理的基本开发方式,巩固和加深大数据分析的基础知识。 本课程的主要内容包括: 大数据软件栈、虚拟化、系统管理、数据清洗、数据存储、处理框架、内存计算、文档数据、NoSQL/NewSQL数据库、图数据、流数据、分析框架、数据分割、以及一致性。

本门课程主要希望通过对一系列与大数据相关的计算机系统知识的学习和动手实践,让学生理解大数据分析系统的软硬件架构,了解目前可用的工具和技术上存在的挑战。考虑到A班学生群体中有相当多的经管、社科及公共管理专业学生,A课程注重讲授大数据系统工具的概念、应用场景以及商业价值。B班学生群体以信息类专业学生为主,注重讲授大数据系统的原理、开发及实现。在介绍典型系统工具使用的基础上,通过分析其实现原理与设计理论,增强学生大数据平台与工具的应用与开发能力。培养学生在工作中应用与选择适合大数据工具的能力,同时也为有志于继续深入学习大数据专业课程的学生创造基础。

校对:林亦霖

为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包

同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。

《大数据系统基础》实践项目期末答辩顺利举行 校企联手打造精品实践项目见真章相关推荐

  1. 在数据科学人才教育中不断前行: 《大数据系统基础A、B》课程实践项目中期答辩顺利举行...

    为服务国家大数据发展战略,打造多层次.多类型的大数据人才队伍,清华大学大数据能力提升项目之<大数据系统基础A.B>课程实践项目中期答辩于2018年11月14日顺利举行.清华大学软件学院教授 ...

  2. 《大数据系统基础》课程实践项目中期答辩顺利举行,清华持续探索大数据人才教育创新之路

    2017年11月15日,清华大学大数据能力提升项目之<大数据系统基础>课程实践项目中期答辩在清华大学六号教学楼顺利举行.160余名同学分为21组,向任课老师和企业导师汇报了各组实践项目的进 ...

  3. 《大数据系统基础》课程实践项目中期答辩顺利举行,清华持续探索大数据人才教育创新之路...

    2017年11月15日,清华大学大数据能力提升项目之<大数据系统基础>课程实践项目中期答辩在清华大学六号教学楼顺利举行.160余名同学分为21组,向任课老师和企业导师汇报了各组实践项目的进 ...

  4. 清华大学《大数据系统基础A/B》课程实践项目宣讲会来了

    9月15.16日,清华大学大数据能力提升项目必修课<大数据系统基础A/B>课程实践项目宣讲会以线下+线上的方式顺利举行.授课教师软件学院院长王建民教授.闻立杰副教授和宋韶旭副教授分别对大数 ...

  5. 清华大学《大数据系统基础》项目征集说明(2021年秋季)

    一.清华大学大数据能力提升项目介绍 在全球大数据浪潮中,为培养具有大视野.数据思维和专业技能的"π"型复合人才.2015年12月,在"学校统筹,问题引导,社科突破,商科优 ...

  6. 协作的力量——2021-2022年度《大数据系统基础》成果展示

    实践单位:清华大学核能与新能源技术研究院 项目名称:核电厂关键敏感设备健康评估与寿命预测建模分析研究 小组成员:  张文济(组长) 核研院 李京人 土木系 刘书呈 机械系 罗儒维 工物系 项拓宇 工物 ...

  7. 大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22

    第1章 概述 1.简述大数据发展现状与历史 1.1.1国外发展现状 (1)国家及国际组织方面: 2009年,联合国就启动了"全球脉动计划". 2009 年至今, 美国Data.go ...

  8. 大数据系统基础 | 绪论

    1 什么是大数据 1.Big data is an all-encompassing term for any collection of data sets so large and complex ...

  9. 大数据系统架构模块解析

    企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台.而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划.今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个 ...

最新文章

  1. java jms消息删除_activemq的topic消息一直都会存在数据库中,为什么不会删除
  2. 黄浴:基于深度学习的超分辨率图像技术发展轨迹一览
  3. session对象不创建会有吗_相亲对象突然不联系了,你知道原因吗?
  4. Py之Queue:python库之Queue的简介、安装、使用方法之详细攻略
  5. 一个极好的ALV例子
  6. LeetCode 23. Merge k Sorted Lists
  7. 音视频技术开发周刊 | 213
  8. 牛客网dp专题 数位dp
  9. Linux下基于socket和多线程的聊天室小程序
  10. java ppt控件_Java版PPT操作控件Spire.Presentation v3.3.5新版来袭!支持转换GroupShape到图片...
  11. 自定义插入子串、删除子串、替换子串函数
  12. vue更新路由router-view复用组件内容不刷新
  13. google_trans_new库:谷歌翻译库Googletrans的替代品
  14. Beautiful Soup
  15. Python爬取视频之爱情电影及解密TS文件和两种合并ts的方法
  16. 微信内置浏览器API的常用的js方法
  17. php爬取html内容,php抓取网页html,curl和file_get_contents通过get或post方式抓取网页内容,源代码
  18. 常用的图像特征提取方法
  19. h5实现类似淘宝评价选择标签
  20. 人民币成功“入篮”SDR,这意味着什么?

热门文章

  1. Powercli 批量获取vmhost 时间
  2. 程序员该有的职业素养
  3. 解决 Windows instance 时间不同步问题 - 每天5分钟玩转 OpenStack(153)
  4. 什么时候会执行viewDidLoad方法
  5. linux中设置程序开机自动启动
  6. pstools中如何绕过协议提示
  7. java字符编码问题_java 字符编码问题
  8. java 魔法王国,游历魔法王国
  9. JS(内置对象,全局函数,事件,事件对象)
  10. GBDT原理及在公司中地位 转载