导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

至今,已有来自全校45个院系的3055名同学参加大数据能力提升项目,其中556位同学通过课程学习和实践获得由清华大学研究生院颁发的“清华大学大数据能力提升项目证书”。

谈起最大的收获,同学们表示无论是自身的数据思维还是本专业与大数据技术相结合的科研能力以及实践经验等方面均得到了很大的提升。清华的数据科学人才培养究竟有什么特别之处?让我们一起通过他们的故事,揭秘各院系清华学子的大数据提升之路吧!

刘昊天 电机系

2018 年,我从电机系本科毕业,并在本系直博,师从吴文传教授开展电力系统方向的研究。当时我的本科毕设主题是无模型自适应控制,以解决配电网广泛接入分布式电源带来的电压问题。这是一个很有挑战性的课题,我在本科毕设当中沿用了传统无模型控制的思路,并加以改良,解决了单个分布式电源的自适应电压控制问题。然而,当导师让我继续深入解决多分布式电源控制时,我却发现现有文献中的方法已经无法适用。究其原因,是我们所研究的配电网模型复杂度高、建模和参数维护困难,存在严重的模型不完备问题。因此,现有的模型驱动类分布式电源控制方法,在该场景下难以为继。这启发我转向数据驱动方法,从海量的配电网运行数据中挖掘得到分布式电源最优控制策略。然而,对于一个门外汉,入手大数据算法并达到能够进行学科交叉科学研究的水平,无疑是难上加难的。此时,我注意到了学校的“大数据能力提升项目”,并被该项目的培养方案和课程设置吸引,于是便选修了推荐的大数据课程。

一、认真修习课程,开阔学术视野

在能力提升项目中,我修习了多门交叉学科课程,如数据可视化、政务大数据分析等,并参加了多场主题讲座。这些课程和讲座与我本身的专业相差甚远,极大程度上开阔了我的学术视野。例如,在数据可视化课程中,我第一次从美学、设计学、心理学的角度审视数据可视化这个平时不被看重的环节。除了各种精彩的图表, 我还学习了如何从编码信息的角度去看待数据可视化工程,这在后续的科研工作中起到了重要的作用,让我可以在面对一个复杂的可视化问题时不再毫无头绪。这门课上,我为每个小作业都编写了静态网页,并带领小组完成了微信公众号数据可视化的项目,这不仅让我获得了 A 的成绩,还作为开源项目丰富了我的简历。又如, 在基础课大数据分析(B)中,)我和小组一同选择了深度强化学习作为最终综述作业的题目。在这门课程中是我第一次接触深度强化学习,而老师布置的参考文献和小组作业极大地促进了我对该领域的学习。这门课结束后,我便将深度强化学习作为自己博士研究的方向,以期借助深度强化学习在无模型场景下的寻优能力,优化配电网运行并促进分布式电源消纳。可以说,大数据能力提升项目的课程成为了我博士研究的重要基础。

图 1 项目培养“数据可视化”课程作业

(可在线访问 https://shakespeare.nogeek.top 及 https://color.nogeek.top)

二、积极参加竞赛,打磨前沿技术

2021 年暑假,我参加了由全国高等学校计算机教育协会主办的“2021 中国高校计算机大赛—微信大数据挑战赛”,赛题为微信视频号用户行为预测,即通过视频特征和用户特征,预测用户的点赞、评论、关注等行为,并以此指导视频的推送。在该赛事中,我第一次接触到推荐算法,而完善的支撑平台和充足的实验数据,让我能够实验各种前沿算法,并打磨自己的大数据技术。树模型、DeepFM、MMoE、Attention、Transformer、GNN,这些关键词至今仍深深刻在我的脑海中。比赛中我们还遇到了严重的内存不足问题,这是一个典型的业界需要考量的问题,但在我以往的科研工作中都当成小事。经过积极研究,我改进了 PyTorch 数据集的加载机制、降低了 Pandas DataFrame 的内存占用,还把模型融合、交叉验证等技巧熟练运用。最终,我进入复赛并获得全国三等奖(Top 1%),这对一个非专业的学生来说是莫大的鼓励。另一方面,这个比赛也让我亲眼见证了大数据算法的强大:优秀的算法加上海量的数据,竟能在预测结果上实现质的飞跃。大数据思维,或许应成为每个工科博士生的必修课。

图 2 微信大数据挑战赛复赛阶段(队友视角)

三、专注学术科研,投身工程实践

课程的修习和竞赛的打磨都让我的大数据能力有了极大的提升,而这又直接反应在我的学术科研和工程实践中。以深度强化学习方法为基础,我的研究将配电网中的优化方法,从模型驱动升级为模型-数据融合驱动,通过智能学习与无模型控制理论,在线跟踪配电网特性,从而在模型不完备场景下依然能进行配电网优化。借助课程和竞赛打下的基础,我在学科交叉的科研中,不仅仅是“把大数据算法拿来用”, 而是从工程挑战出发,对算法进行原理层面的改进,并解决工程中的痛点问题。例如,现有的部分深度强化学习方法,需要大量在线训练样本,而这在配电网中将影响运行效率。因此,我研究了两阶段深度强化学习方法,创新型地将对抗强化学习引入配电网控制,使得离线训练结果可迁移到在线,大幅提升在线安全性。目前, 我以第一作者身份发表 3 篇 IEEE Trans.系列论文(行业顶刊),并申请了包括美国专利在内的多项专利。在工程实践中,我深度参与了包括国家自然科学基金、国网科技项目、国电投总部科技项目在内的多个纵、横向项目,从项目申请、技术研究到软件研发、工程示范,持续为大数据算法的落地转化贡献力量。

图 3 国家重点研发计划项目现场--安徽金寨

编辑:文婧

校对:林亦霖

刘昊天:以数据思维助力工程实践 | 提升之路系列(十一)相关推荐

  1. 张立贤:积跬步至千里,我与地学大数据的探索之旅 | 提升之路系列(五)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  2. 赵胜男:数据思维,让我的科研和志愿服务动力十足 | 提升之路系列(十二)...

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  3. 孙琦:大数据思维助力我探究能源颗粒机理 | 提升之路系列(四)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  4. 张书源:大数据能力助力我实现化工智能制造 | 提升之路系列(十)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  5. 苏子怡:大数据思维融入建筑节能 | 提升之路系列

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  6. 郑可迪 : 培养数据思维,投身电力大数据领域研究 | 提升之路系列(一)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  7. 王瑜琪:数据科学助力我捕捉研究生教育的宏观效应 | 提升之路系列

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  8. 赵雪轩:数据科学助力我的智能化航天梦 | 提升之路系列

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  9. 王可汗:数据科学带我解开摩擦学的“反常现象” | 提升之路系列(七)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

最新文章

  1. Linux 进程等待队列
  2. 一个有关ajax去获取天气预报然后用echarts展现出来的小demo
  3. AXI_04 AXI_LITE_MASTER_IP设计与验证
  4. leetcode 216. 组合总和 III 思考分析
  5. Redis通讯协议RESP详解
  6. 如何更快获取想要的设计资源?
  7. swift 字符串转int_Swift Tips Streamline 如何假装写过 Swift
  8. docker强制删除none的image镜像
  9. 扩展正则表达式egrep11
  10. 调试中除了在URL上加时间戳外,如何避免js、css被返回304状态?
  11. 7. 查看当前库状态
  12. [2019杭电多校第二场][hdu6602]Longest Subarray(线段树)
  13. 2023年厦门大学全日制会计专硕(MPAcc)考研上岸前辈备考经验
  14. Java修改图片大小尺寸图片缩放
  15. CryENGINE 3 百度百科介绍
  16. Codeforces 1419B. Stairs
  17. 排球分组循环交叉编排_学校2020年教职工气排球比赛圆满落幕
  18. 端口被占用怎么办?关闭8080,3000,8000端口被占用
  19. CCF-野外环境中的蝴蝶自动识别-排名54
  20. Linux中处置挖矿病毒样本演示

热门文章

  1. 【c语言】查找200以内既是3的倍数又是5的倍数的数
  2. python cs开发框架_我的第一个python web开发框架(24)——系统重构与ORM
  3. linux(六)之文本操作
  4. mysql AB 的基本搭建
  5. web前端,我的新开始
  6. 我常用的delphi 第三方控件
  7. More Effective C++读书笔记(二)
  8. c语言中 d的用法,C语言中的#define用法总结
  9. python监听文件更改记录_如何用机器人监听老板微信?
  10. 隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)