《大数据实践课》是清华大学大数据能力提升项目必修培养环节,旨在以企业实际项目需求为驱动,锻炼学生和真实用户之间的交流能力、需求获取能力、团队合作能力,实现学生自身综合能力、科研能力及求职就业竞争力的提高。

实践教学最具特色的地方在于,将来自全校理、工、文、商、医不同学科专业背景的学生分为A类(面向商科、人文社科等非信息类专业背景学生)和B类(面向计算机、软件、自动化等信息类专业背景学生),A、B类同学自由组队,分工明确,以数据驱动的“真问题,真数据”、校内外双导师制的共同指导下完成项目任务。

实践中不同专业院系的同学们都参与了哪些实际项目、解决了什么问题、他们都有什么收获呢?让我们一探究竟。

01

实践单位:首都医科大学附属同仁医院

项目名称:病理性近视的AI诊断

小组成员:

海家瑞 水利工程

龚傲凡 水利工程

曹  卫 生命科学学院

吴泽昆 水利水电工程系

左成文 电子工程

汪子奇 数据科学与信息技术

研究目标:我国近视患病人数居世界首位,已成为重大公共卫生问题,甚至在某些地区已经成为了首位不可逆性的致盲眼病。病理性近视的传统筛查对硬件要求较高,需要专业医师,依赖进口设备,因而普及率不高。我们要实现AI辅助综合筛查,大大节约人力、物力和时间,提高普及率,降低成本。

实践课的成果:训练了病理性近视影像学图像识别模型,搭建了病理性近视影像学智能诊断平台。经验证,病理性近视诊断平台具有被应用于辅助病理性近视诊断的潜力,能够辅助眼科医生诊断病理性近视,提升该疾病医疗诊断的工作效率。

部分成果展示

图1 AI诊断可视化平台

图2 模型训练结果对比

同学们的收获:

吴泽昆:本课程让我将课程学到的知识体系真正投入到实际项目的实践中,主要开展了数据前期处理和可视化平台搭建的工作,使我对大数据技术的应用有了更深入的认识。并且在小组合作的过程中,我了解到项目合作开发中可能出现的问题以及解决方式,也积累了一定的项目经验,让我受益匪浅。

龚傲凡:本次实践通过开展数据标注、数据集构建、模型训练及结果分析等工作,我对大数据技术的原理和实际应用的理解更加深刻,并积累了与团队成员合作开发的经验,希望以后还有更多机会参与到实际项目当中。

海家瑞:在本次实践课程中,我们真正接触了大数据分析、人工智能技术的实际应用场景,与理论课程不同,我们在课程中参与了更多数据整理、数据集构建的前期工作,同时也对眼科相关知识有了许多了解。

       企业导师点评:

非常感谢大数据实践课提供的这次合作机会,留给我印象很深的是项目负责的老师们都非常敬业、专业且负责,协助解决项目进行中的问题。同学们非常优秀且勤奋,这个项目涉及了大量的工作量和专业知识,同学们最后交上了一份非常亮眼的答卷。

医学领域的眼底AI诊断是目前研究的热点和发展方向,期待能够继续在这个实践项目的基础上进行后续连贯研究。

02

实践单位:北京智慧星光信息技术有限公司

项目名称:全国热点事件的聚合与公众情绪分析

小组成员:

刘愉之 政治学

潘莹莹 政治学

研究目标:该企业存在对互联网热点事件情绪分析的需求。但现有情绪分析能力有两个弱点:缺乏英文情绪分析能力;中文情绪分析仅包含正面和负面两个维度,且情绪词典准确度不足。项目任务主要有两个:

(1)整理高精度的中英文情感词典

(2)训练深度学习模型。

实践课的成果: 

1.基于实践中的数据标注结果,应用到了对情绪数据情感预测之中

2.情感词典用于企业后续项目

部分成果展示

图1.词典示例

图2.四种模型

图3.不同分类准确度

同学们的收获:

刘愉之:在项目中,我学习了情感词典的构建方法并进行实践,完成了文本标注,挑战了未学习过的Bert模型、Bi_lstm_attention模型和Roberta模型。

       企业导师点评:

两位同学在实习期勤奋认真,有很强的适应能力和创新意识,能够利用所学的知识迅速投入到实际工作中,调研了前沿的情绪识别方法,建立了一套标注的情绪体系;收集了和整理的大量的情绪知识库,包括中英文;整理和标注了一批标注情绪语料集,为后续算法训练提供了巨大帮助;设计了情绪识别算法模型,并完成了多种深度学习算法训练以及结合训练的效果验测。同学们圆满地完成了热点事件情绪识别项目,为情绪识别后续版本的优化提供大量基础知识库,以及各种深度学习算法效果验测,成果突出。

03

实践单位:北京妇产医院

项目名称:妇瘤科数据库与随访

小组成员:

张锦文 新闻与传播

梁铭轩 建设管理

郑和帆 建设管理

杨璐嘉 科学技术史

郭晓蕾 传播学

研究目标:在医疗大数据体系尚不健全的大环境下,北京妇产医院积累的大量数据需要进行分类整合、数据清洗以及可视化等操作。

实践课的成果:建立了DWF数据库,实现了PC端和移动端管理,并实现多个主题的可视化呈现。产科和肿瘤科的DWF数据库已经可以测试使用(PC端+移动端),为多个部门的数据查询和数据编辑提供应用提供了便利;当前可以适用的部门包括:手术室、咨询台、妇科、肿瘤科等。

       部分成果展示

图1.PC端数据查询与可视化(基于DWF)

图2.移动端数据查询与可视化(Pad)

图3.职能权限分设机制

       同学们的收获:

张锦文:在老师的帮助下,我不仅学习到许多产科、妇瘤科的医学知识,还尝试了DWF数据库的学习和echart平台的可视化操作。一方面,在数据清洗过程中,我意识到“整理文字信息”环节存在巨大的工程量,这让我对数据处理的整个流程有了更完整的认识,对其中的技术难点和时间控制有了更深的体悟;另一方面,过去面对代码我总有畏难情绪,在可视化学习时基础不扎实,这次通过“干中学”解锁了许多图表代码,挖掘出一些有趣的结论,很有成就感!

        企业导师点评:

这类课程非常有意义,学生不是简单学习课本知识,而是利用企业提供的场景及数据解决企业的实际问题,同时在这个过程中获得更好的沟通、交流及获取信息的能力,加深对于大数据和真实世界的理解。建议学校多办此类课程,并在后续保持与企业之间的联系,使短暂的交流成果能够最终落地。

04

实践单位:北京天坛医院

项目名称:基于头CT的急性脑出血颅内血肿测量与早期血肿演变预测算法的研究

小组成员:

唐文丁 医学物理与工程

严振峣 核科学与技术

宋雨杉 安全科学与工程

张旨晗 医学物理与工程

研究目标:脑出血是最常见的脑血管病,急性脑出血有较高的病死率及病残率,发病早期在多种因素作用下,血肿极其不稳定,有逐渐扩大的趋势。传统脑部CT影像学可以对检查时颅内情况实时体现,但其并不能对出血量、血肿形态、内部结构等信息进行提示。本课题拟以急性脑出血为研究对象,希望通过一些智能化的方法对脑部CT影像进行智能化处理,为临床医生提供客观有用信息,为治疗决策的选择提供重要依据,最终提升急性脑出血患者的治疗转归。

实践课的成果:实现了对颅骨、大脑软组织以及血肿部分的分割,并建立了三维可视化模型,实现了对脑出血的量、形态、结构进行测量和判断;开发了集成脑出血量计算结果、三维可视化等内容在内的用户图形界面。

部分成果展示

图1.脑部分割结果的三维可视化

图2.GUI显示不同断层的CT扫描结果

图3. GUI显示脑部分割结果三维可视化及相关信息

       同学们的收获:

唐文丁:在这个项目中我学到了CT医学图像的简单处理方法,包括图像分割、三维可视化、特征提取等,对我将来在医学物理的科研中处理图像有所帮助。同时通过更加贴近临床的实践体验,也了解了医生们的思考方式和需求。

张旨晗:在本次实践中,我学到了CT图像的一些处理算法(比如生长算法等),以及MATLAB中一些功能的实现、血肿特征提取等知识。我自己的博士课题是有关SPECT/CT系统上的SPECT系统设计和算法研究,本次暑期实践让我对CT有关知识有了更加深刻的理解和认识。

企业导师点评:

同学们利用12598例急性缺血性卒中患者脑影像数据以及健康人脑网络模板,获得116个脑区的梗死病灶相关脑网络数据,结合患者的功能预后评分,采用SVM、随机森林、深度神经网络等机器学习算法,构建了急性缺血性卒中功能预后预测模型,准确率达62%。在项目过程中积极学习掌握MRIcro、SPM等专业影像软件的应用。

05

实践单位:中原银行

项目名称:群体智能算法应用实践

小组成员:

张原宇 化学工程

曹相洲 管理科学与工程

陈宇 环境工程

张莉均 仪器仪表工程

周璐 教育经济与管理

研究目标:中原银行从2018年开始实施全面数字化转型战略,随着数据量的日益增大,数据之间的逻辑关系也日益复杂。本项目的需求是探索各类算法在实际调度场景中的效果,尤其希望在动态调度方式下获得有效的解决方案。根据现有样本、标签及数据情况,探索实际场景中动态调度如何利用无监督、半监督学习生成有效的任务动态优先级模型及优化效果量化监控。

实践课的成果:尝试探索了多种群体优化算法,根据任务间依赖关系进行动态调度,并加入实际数据中的起批时间等限制条件,将系统任务运行总时间优化到13小时左右,并设计了相关量化指标评价调度效果。

       部分成果展示

图1.蚁群算法任务调度可视化结果

图2.遗传算法调度时长与运行时长

图3.队列调度算法运行时间

       同学们的收获:

陈宇:增强了对大数据的应用端(金融系统离线任务调度)的了解,以及对工具端python的掌握。

张莉均:这次大数据应用实践使我有机会对大数据所使用到的高级数据结构深入了解和应用,培养和提高了代码能力,对金融大数据应用产生了具体的认识。

周璐:这次项目实践让我学习了解了群体智能优化算法,并初步尝试了将算法应用到企业实际数据相关业务中。

企业导师点评:

在项目实践过程中,各位同学均表现优异,能够独立思考、积极攻克项目难点,表现出良好的专业能力和敬业精神,对我行调度系统的建设提供了更加广阔的思路。在后续的工作中,希望能够继续加强合作,在金融科技领域共同探索,发挥双方优势,实现合作共赢。

收获的九月——《大数据实践课》成果展示相关推荐

  1. 青春有你,成长同行——2022《大数据实践课》成果展示

    1 实践单位:中国广核新能源控股有限公司 项目名称:基于机器学习的风电机组传动链故障诊断 小组成员: 高  祥 机械系(组长) 李艳文 机械系 范祥祺 工物系 研究目标:随着风电机组运行年限的增加,机 ...

  2. 2022年清华大学大数据研究中心 | 招募夏季学期《大数据实践课》合作企业

    一.大数据研究中心简介 清华大学大数据研究中心于2018年9月成立,是清华大学建设世界一流大学.鼓励大数据领域的学科交叉的重要举措,是深入推进科研体制机制改革的重要里程碑.大数据研究中心发挥清华大学多 ...

  3. 《大数据实践课》开创实践教学新模式:清华大数据能力提升项目特色课程系列报道之一

    2014年4月,清华大学顺应时代潮流成为全国第一批成立大数据研究机构的高等学府.四年来,清华-青岛数据科学研究院(以下简称:数据院)与研究生院共同设计组织实施了以大数据能力提升项目为主的大数据人才培养 ...

  4. 2021年夏季学期“清华大学大数据能力提升项目” 招募《大数据实践课》企业合作项目...

    什么是大数据能力提升项目? 在全球大数据浪潮中,2014年清华大学大数据能力提升项目依托信息学院.经管学院.公管学院.社科学院.交叉信息研究院.五道口金融学院.深圳研究生院共7个学院协同共建,通过多学 ...

  5. 招募 | 《大数据实践课》企业合作项目,2020年夏季学期“清华大学大数据能力提升项目”...

    什么是大数据能力提升项目? 在全球大数据浪潮中,2014年清华大学大数据能力提升项目依托信息学院.经管学院.公管学院.社科学院.交叉信息研究院.五道口金融学院.深圳研究生院共7个学院协同共建,通过多学 ...

  6. 清华大学《大数据实践课》总结交流会成功举行

    11月4日,清华大学大数据能力提升项目<大数据实践课>总结交流会于线上成功举行.来自北京妇产医院.北京同仁医院.赋乐科技.网帅科技的企业导师,授课教师软件学院闻立杰副教授,课程助教.学生代 ...

  7. 实践课成果展示 | 智能车辆管理系统

    [项目名称]清华公务派车易管家 [小组同学]林子秋 吴巍 宋维书 孙政 刘翔 [指导老师]刘英博 耿坤瑛 [选题背景]自2004年公务用车改革以来,高校及政府机关面临着公车供给紧张的局面,但与此同时, ...

  8. 招募 | 《大数据实践课》课程实践企业合作项目

    什么是大数据能力提升项目? 在全球大数据浪潮中,2014年清华大学大数据能力提升项目依托信息学院.经管学院.公管学院.社科学院.交叉信息研究院.五道口金融学院.深圳研究生院共7个学院协同共建,通过多学 ...

  9. 时空大数据实践之GeoWave安装部署实践

    2019独角兽企业重金招聘Python工程师标准>>> 时空大数据实践之GeoWave安装部署实践 GeoWave是由国家地理空间情报局(NGA)与RadiantBlue和Booz ...

  10. 开放下载!《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践

    来源:开发者社区 本文约2000字,建议阅读5分钟. 阿里经济体大数据及AI典型场景最佳实践全揭秘.2019不容错过的大数据实战手册--<阿里巴巴大数据及AI实战>现在可以免费下载阅读啦! ...

最新文章

  1. 中科院微生物所郭惠珊团队创建抗土传真菌黄萎病的陆地棉种质
  2. 语义分割常用loss介绍——及pytorch实现
  3. Android Studio 一些方便使用的设置
  4. 2020 我的C++的学习之路 第十章 对象和类
  5. oracle备份还原到本地_Oracle 11g R2 RAC数据库备份通过RMAN恢复到单实例数据库实现...
  6. 硒4 Alpha –期望什么?
  7. Java PrintWriter close()方法与示例
  8. python接口测试第二期_Python接口测试实战2 - 使用Python发送请求
  9. (五)为边缘AI人脸识别创建人脸数据库
  10. Android 开发之 fill_parent、wrap_content和match_parent的区别
  11. INFORMATION_SESSION_VARIABLES feature is disabled问题
  12. 排队论模型(一):基本概念、输入过程与服务时间的常用概率分布
  13. 通过gps计算间距(WGS84坐标系)
  14. 海思Hi3796MV200最新官方SDK
  15. 虚幻4和Unity3D应该学哪个
  16. Web3D展示框架whs.js:基于Three.js的Web3d应用程序的超快3D框架
  17. PS 反选 剪切
  18. Android9.0新特性
  19. 手机系统版本android 8,手机如何升级到安卓8.0系统?对手机有要求吗?
  20. linux定时删除文件,如何操作Linux 定时删除指定目下N天前的文件

热门文章

  1. 我在Slager上的LaTeX排版之路|空格命令(连载)
  2. 仿站和模板建站的区别_不懂建站、资金有限?外贸soho建站先看这几条建议
  3. 唯读---图书微服务接口设计(持续更新)
  4. JDK1.8 下载及安装步骤
  5. PS 插件批量压缩png图片
  6. python右对齐_Python中print函数输出时的左右对齐问题
  7. Unity打包ios应用并上架appstore审核的一些备忘
  8. 千个Excel文件合并为一个文件
  9. html5制作叮当猫,HTML5 canvas画简单的叮当猫头
  10. python取出字典重复值_从字典中提取重复值