导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

至今,已有来自全校45个院系的2657名同学参加大数据能力提升项目,其中445位同学通过课程学习和实践获得由清华大学研究生院颁发的“清华大学大数据能力提升项目证书”。

谈起最大的收获,同学们表示无论是自身的数据思维还是本专业与大数据技术相结合的科研能力以及实践经验等方面均得到了很大的提升。清华的数据科学人才培养究竟有什么特别之处?让我们一起通过他们的故事,揭秘各院系清华学子的大数据能力提升之路吧!

清华大学化学学院博士生曹长树(化名)

研究方向:理论与计算化学

“学武初心” 

有别于化学系的大部分方向,我们没有实验室,也接触不到烧杯试管和各种瓶瓶罐罐,理论与计算化学旨在利用计算机从理论的角度利用数值方法对化学世界进行建模与分析。2017 年 9 月,我无意间在微信中看到了“大数据提升项目”的相关介绍,依稀记得其中“培养数据思维”和“鼓励学科交叉融合”等几个关键词戳中了我。 首先说说“数据思维”,目前的计算化学,主要基于量子力学的物理学原理,在一系列数学近似之后,对化学微观系统进行建模,求解薛定谔方程。但这条路已经越来越崎岖,一方面,相关的物理学理论成熟于上个世纪三四十年代,但短期来看,很难从物理理论方面产生巨大的突破。而数据科学也许能提供另一个解决问题的视角, 通过数据驱动,也许能绕开某些障碍,取得出人意料的成果。而“学科交叉融合” 则意味着通过该项目,不同背景不同专业的老师和学生,也许能碰撞出火花。此外,灵活自由的课程设计,线上线下的有机结合,都有效地降低了学习的门槛。

“嵩山学艺”

“大数据提升项目”的招生信息点燃了我的热情,说干就干,我怀着憧憬与期待报了名。在一年级我选修了朱文武老师和崔鹏老师主讲的《大数据分析(B)》。这门课程可以说是大数据方向的武学总览。两位老师介绍了大数据的概念,相关的数学基础、大数据的智能处理方法、大数据的分布式处理/并行计算以及大数据的多领域应用等,带领我们一窥信息时代五光十色光怪陆离的大数据世界。我仍然能回忆起课上留的两个编程作业,一道方差分析题和一道推荐算法的题目,没有什么基础的我在课后稍加努力也能够成功完成,这在学习伊始给我树立了一些信心。 除此之外,我还选修了自动化系张长水老师开设的《模式识别》,软件学院龙明盛老师开设的《深度学习》这两门课程。如果说《大数据分析(B)》给我的感受是风轻云淡,那么《模式识别》则是风雨交加,充满挑战。这门课程系统且清晰地讲解了贝叶斯决策、混合高斯模型、线性判别函数、支持向量机、决策树学习、聚类、深度学习等机器学习领域的各个分支,颇具挑战但也收获满满。龙老师的《深度学习》 则详细介绍了以感知机/神经网络为核心的深度学习相关知识,从反向传播算法,卷积神经网络(CNN),循环神经网络(RNN)的原理与实现,到最新的技术进展,主讲老师都深入浅出地给我们娓娓道来。同时,结课时我们小组以天池-端到端网络图像文 本识别赛题作为期末作业,这也是我第一次接触大数据,人工智能相关的比赛。通过几门大数据课程的学习,我对大数据相关知识有了基础的了解,并且对于机器学习有了系统的学习,练就了扎实的内功,掌握了扎实的理论知识与原理。

小试牛刀 

在修完所有理论课程之后,项目的实践课程也给我们提供了宝贵的机会一展所学。大数据实践课程使我们得以接触真实的数据,解决实际的需求。在 2020 年暑期,我与其他几位学员以小组的形式,参与了对接百望股份有限公司的实践项目。百望股份有限公司主营电子发票相关业务,致力于打造中国最大的发票云生态企业,是国内领先的“互联网+税务”促进者和先驱。我们在公司项目负责人的指导下,利用无监督学习的方法,建立税收风险监控模型取得了较好的效果,最终我们团队也获得了“优秀团队奖”。

除此之外,我还作为队长,和课题组的一位师兄组队参加了 2020 中国高校计算机大赛·华为云大数据挑战赛。一路磕磕绊绊,我们发现粗粒化的方法可以有效提升预测效果,并且最终进入决赛,获得二等奖。如果说大数据相关的理论课程帮助我们打好了内功基础,那么数据院提供的实践机会就帮助我们获得了实战经验,在大数据的现实场景下,演练了精妙的”剑招”, 将理论与实践完美地结合了起来。

初入江湖 

在经过大数据项目的相关理论学习后,使我不断思考如何与本专业结合起来,相互提供助力。2019 年暑期,我申请了华为 2012 实验室-数据中心技术实验室的量子计算项目,致力于量子计算机对化学系统模拟的算法研究,在这里我的化学+大数据的背景得到了用武之地,在部门主管和同事们的帮助下,我们提出了一种新的高效的量子线路生成算法,并申请了专利。同时,我的博士研究课题之一是利用遗传算法搜索高压下晶体结构,受益于大数据项目的学习经历,目前研究也在稳步推进中。

结语

一入江湖岁月催,不知不觉我已不再是当初那个懵懂的菜鸟小虾米,而是学到了三两招派的上用场的“拳脚功夫”,未来可期,只愿不负韶华,一展拳脚,融汇多领域知识,成为“π 型人才”。

曹长树:江湖小虾米的侠客行——我的大数据能力修炼得道之路 | 提升之路系列...相关推荐

  1. pandas将dataframe中的内容为列表(list)的数据列裂变、拆分为多个新的数据列实战:拆分为多个新的数据列(并指定新数据列的名称)、数据列中的列表(不等长)拆分为多个新的数据列产生NaN

    pandas将dataframe中的内容为列表(list)的数据列裂变.拆分为多个新的数据列实战:拆分为多个新的数据列(并指定新数据列的名称).数据列中的列表(不等长)拆分为多个新的数据列(产生NaN ...

  2. 大数据时代 树大数据意识

    大数据时代 树大数据意识 一,大数据及其特点 1.什么是大数据? 美国首屈一指的咨询公司麦肯锡给大数据的定义是:大小超出常规的数据库工具获取.存储.管理和分析能力的数据集.全球最大的电子商务公司亚马逊 ...

  3. 神策数据曹犟将出任导师:宝洁黑客马拉松聚焦工业大数据

    参加一次 Hackathon 就会明白,想法,idea,不值钱.真正创造价值的,是将它变成现实之后. 在这场 Hackathon 里,你将...... ①在你 [应该知道的] 前提下,提出 [只有你知 ...

  4. 静态主席树总结(静态区间的k大)

    静态主席树总结(静态区间的k大) 首先我们先来看一道题 给定N个正整数构成的序列,将对于指定的闭区间查询其区间内的第K小值. 输入格式: 第一行包含两个正整数N.M,分别表示序列的长度和查询的个数. ...

  5. 大数据分析学习Python需要多长时间

    学习Python需要多长时间?你可以在短短的一两个星期内学习基本知识.扎实的基础知识(变量,函数,for循环,if-else语句等)足以帮助你解决工作中的问题或编写简单的脚本.如果你想全职使用Pyth ...

  6. 大数据及人工智能基础系列2 B+树

    B+树 是 大数据的常用存储结构,感谢July的分享. 从B 树.B+ 树.B* 树谈到R 树 作者:July.weedge.Frankie.编程艺术室出品. 说明:本文从B树开始谈起,然后论述B+树 ...

  7. 大数据可视化陈为智慧树_智慧树知到_大数据可视化_答案章节单元测试答案

    智慧树知到_大数据可视化_答案章节单元测试答案 更多相关问题 (1)33+(-23)2-48-12×6:(2)当a=2时,计算21-a-a1+a的值. 计算(1-11-a)(1a2-1)的结果正确的是 ...

  8. 长三角大数据产业联盟正式成立,云创大数据位列创始成员单位

    2017年11月18日下午,中美绿色数据中心暨大数据产业发展高峰论坛在南通盛大举行,会上举行了长三角大数据产业联盟揭牌仪式,中数盟理事长傅伯岩与江苏省经信委副主任池宇为联盟揭牌.作为联盟创始单位之一, ...

  9. 南通开发区:打造长三角大数据产业发展高地

    一排排黑色机柜像哨兵一样列在机房,计算程序24小时不间歇值守运转-- 这是9日上午,第三采访组记者在南通国际数据产业园中兴网信一期看到的场景.依托各类大数据,人们在医疗.交通.金融.文化娱乐.通信等各 ...

最新文章

  1. 【linux】Valgrind工具集详解(六):使用Valgrind gdbserver和GDB调试程序
  2. oracle prvg 1901,12c 打补丁analyze时报错
  3. 构建基于Ceph的文件共享服务
  4. 牛客 -- leetcode -- max-points-on-a-line
  5. mysql可连接_mysql开启远程可连接
  6. 工作173:一级控制二级菜单的变化
  7. 前端学习(2123):知识回顾
  8. 在二元树中找出和为某一值的所有路径
  9. LightOJ 1266 - Points in Rectangle 二维树状数组
  10. springboot实现热部署,修改代码不用重启服务
  11. php简单授权验证,技术教程:PHP简单免网络的授权验证方法
  12. $('xx')[0].files[0]的意思
  13. wps右下角弹窗广告(WPS购物或叫WPS热点)彻底关闭
  14. 统信UOS应用商店十月活动
  15. Echarts示例大全 Demo合集网站
  16. jquery仿直播app按钮点赞特效
  17. 分享一下杭州医院的看病流程(我去的杭州市第三人民医院)
  18. linux装百度网盘不能运行,在Deepin系统中安装百度网盘的两种方法
  19. CNPC海外操作人员英语日常用语900句
  20. vue element-ui中有关表格中的数据整条显示红色/绿色等等颜色的问题

热门文章

  1. 西门子scl语言和c语言,西门子SCL语言编程学习心得
  2. jQuery插件开发学习笔记
  3. ORACLE 12C CDB中PDB参数管理机制
  4. ionic2.0禁止横屏模式
  5. 2016年云安全调查报告(更新版)
  6. [转]VSTO Office二次开发RibbonX代码结构
  7. Ubuntu双系统Grub启动菜单修复
  8. 微软服务器sql server,解析:微软SQL Server 2008特性和功能
  9. 前端调用mysql异步_PHP 使用 Swoole – TaskWorker 实现异步操作 Mysql
  10. ‘%.2f‘ 与 ‘{:.2f}‘.format(w) 区别