中山大学数据科学与计算机学院面试
介绍下本人。中山大学,医学生+计科学生的集合体,机器学习爱好者。此处分享两次面试。
【一、总记】
由于一个契机,笔者联系到了本校数据院的老师,老师看了我的简历同意安排一个简单的面试来考察一下我的能力。接着笔者会分享两次不同团队的面试的回答记录,还请各位大佬批评指正。
【二、准备工作】
1、复习一下传统CNN、DenseNet、FastRCNN、Lightgbm、Xgboost、GBDT等常用算法的原理。
2、复习吴恩达深度学习笔记。
【三、第一次面试——20190909 15:00-16:00,面对面】
一、技术类(只记录技术类)
1、医学数据的特点
(1)数据不平衡。
(2)数据少。
2、医学数据不平衡有什么办法
(1)降采样。
(2)过采样。
3、医学数据量少有什么办法
(1)数据增强,比如图像拉伸旋转扭曲。
4、用什么框架
(1)一般用tensorflow
(2)百度开发者大赛用过paddlepaddle。
5、矩阵的秩的概念
(没答上来,忘记了)
(1)百度答案
①在线性代数中,一个矩阵A的列秩是A的线性独立的纵列的极大数目。
②类似地,行秩是A的线性无关的横行的极大数目。即如果把矩阵看成一个个行向量或者列向量,秩就是这些行向量或者列向量的秩,也就是极大无关组中所含向量的个数。
6、贝叶斯公式
(答错一半)
7、梯度和导数的区别
(1)梯度其实可以理解为导数。
(2)比如对权重系数(比如logistics回归里面的w、b)通过反向传播来修正。
(3)从而逐步减小代价函数cost。
【四、第二次面试——20190917 20:00-21:00,电话面试】
一、个人经历
1、自我介绍
(1)现在中山大学附属第一医院外科学研二,本科郑州大学临床医学。
(2)参加过数据算法比赛和学科交叉类比赛(创新大赛、电子设计大赛)。
(3)发表过论文壁报,授权实用新型专利,主要是医疗器械类,因为更好结合专业。
2、根据自我介绍的提问
(1)项目中的角色
①本科学科交叉比赛:开始是提出idea,做负责人,主要统筹协调。之后自学一些内容,可以编写单片机部分功能的代码,设计部分电路。
②数据算法类比赛:solo,会跟群里小伙伴交流,群里同学提出的名词会去网上查询原理和自己实现相关代码。
(2)做了多久机器学习,机器学习相关内容平时有人请教吗,周围有同学做吗
①一年半。
②平时会跟参加比赛的同学们交流。
③周围医学同学不做,因为医学大部分是单因素、多因素回归,之后最多会使用决策树,很少在方法学改进。
(3)平时是分类任务多吗
①是的。大部分是二分类的。
②CCF比赛中有做过多分类的。
(4)代码仓库有整理吗
①习惯整理到本地。
(5)课题组也做机器学习相关内容吗
①是的,临床研究中心。
②做肝癌的精准治疗,会辅助人工智能进行预测预后和提出诊断方法。
(6)医学为什么数据那么少
①因为根据不同课题的入排标准而定。
②而且医学数据还有不平衡的问题,可能需要降采样。
(7)有学过计算机基础课吗
①自学数据结构、组成原理。
②刷leetcode喜欢用c和python。
2、介绍一个你印象深刻的项目(我说了我的课题)
(1)算法
①主要是densenet,效果比resnet好。
②最近有一篇H-denseUnet的文章,想尝试。
(2)流程
①(我说了一遍我的课题摘要,此处暂时不方便分享)
(3)数据量
①目前100+。
②计划1000+。
(4)是否自己添加网络层
①还没有,现在是套用源码进行修改。
②因为数据量比较小,而且标签有多套。
(5)开源代码还是自己写
①开源代码修改。
(6)计算资源从哪里来
①小数据用笔记本,1660Ti,大数据用在线平台。
②因为课题组的服务器主要是看图的(适合绘图),主要是cpu服务器。
③医学数据也比较少,课题组没什么gpu服务器。
(7)做了什么预处理
①常规数据增强、缺失值填充、归一化。
②一些比较复杂的预处理比如CPCD不太会。
(8)准确率怎么样
①自己课题目前只有0.7+。因为数据量小且多套标签,标签不太准。
②之前做的生信测序的课题lgb效果不好。怀疑是数据量小,所以节点分不开。
用rf也只有0.6+。因为数据量只有60+,特征维度有10w,各种降维方法都不太好。
3、还做过什么深度学习相关的项目
(1)医疗数据比赛
①高血压患者三年期的冠心病发病风险,心脏彩超数据。
②普通的CNN提取特征后当做特征向量放入lgb。
(2)百度开发者大赛
①行人识别,paddlepaddle,使用了预训练模型。
②但平时主要用tensorflow。
二、技术
1、卷积神经网络的特点
(1)卷积是特征提取的过程。
(2)原始的特征矩阵可以分成多个特征矩阵,用卷积核和特征矩阵做外积可以提取部分特征。
(3)之后进行padding。
(4)再池化进一步提取特征,即为降维,增加泛化能力。一般是最大池化。
(5)最后全连接softmax进行分类。
2、卷积神经网络和普通神经网络的区别(这个问题开始没听懂,面试的大师兄翻译为全连接层和其他层的区别)
(1)其它层是中间有一些隐层,并不是全连接。
(2)全连接是最后池化之后才连接各个神经元。
(3)不然如果每一层都全连接,那特征维度太高,很容易过拟合。
3、过拟合的解决办法
(1)正则化。
(2)dropout随机丢弃一些神经元,比如设置为0.8。
(3)增大样本量。
(4)k折交叉验证,k一般选5。(不记得是不是这个问题我回答的答案了)
4、激活函数类别和特点
(1)一般最后一层二分类就是用sigmoid,多分类用softmax。中间层用relu效果好。
(2)sigmoid是个类似正弦函数的东西(其实不是…),最大值趋近于1,最小值趋近于0。①一般激活函数起作用在中间的线性部分。
②而如果输入值过大或者过小,会进入平台那里,就无法起作用。
(3)tanh是类似sigmoid下移,最大值趋近于1,最小值趋近于-1。
①因为是奇函数,数据平均值是0,有数据中心化的作用,也有利于下一层学习。
(4)relu负半部分是x轴,正半部分是y=x。
①所以对正性样本响应明显,而对负性样本全部过滤掉,这样会丢失一些特征。
②所以有个改进叫leaky relu,负半部分有个随机值,并不是全部丢弃。
③其他还有一些基于relu改进的函数,不常用。
5、用什么语言,用的这几种语言有什么区别
(1)数据算法用python,单片机开发用c。
(2)python是高级语言,底层是c++写的,运行比较慢。c运行快,但c需要定义变量及类型,一个简单的功能实现都要写很多代码。
6、准确率和召回率是什么,一般用什么评价函数
(1)(准确率和召回率,没回答出来,只说了个混淆矩阵。)
(2)评价函数一般用auc,有些比赛会用logloss,也有一些是自定义的比如f1 score。
三、未来畅想聊天类
1、未来课题方向想法
(1)希望能在方法学有所改进。
(2)因为医学idea其实很多都有人做了,方法学都很像,所以想在方法学改进。
2、要读博吗,做什么方向
(1)肯定读的。
(2)希望做偏底层的,理论多一点,当然也要结合实践,毕竟AI是需要应用到各个场景,但还是希望能多学一些理论方面的内容。
3、有什么问题(我问大师兄回答)
(1)实习是要做什么:方法学改进,算法方面。
(2)课题组节奏:995。
(3)安排:小组形式做课题。
(4)组会:一周一次,这一周提出一个idea,下一周需要有一个版本的模型。
中山大学数据科学与计算机学院面试相关推荐
- 数据科学与计算机学院凌云,陶钧(中山大学数据科学与计算机学院副教授)_百度百科...
陶钧 (中山大学数据科学与计算机学院副教授) 语音 编辑 锁定 讨论 上传视频 本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 陶钧,博士,2018年9月起担任中山大学数据科 ...
- 2019年中山大学数据科学与计算机学院研究生统考机试
2019年中山大学数据科学与计算机学院研究生统考机试题目回忆 本文回忆了2019年中山大学数据科学与计算机学院研究生考试机试题目,希望能对以后的同学的学习有所帮助. 机试共十道题. 1. 继承 一共有 ...
- 中山大学计算机博士_中山大学数据科学与计算机学院2019申请审核制博士招生简章...
(二).专业学位博士(工程博士) 1.招生专业及方向:工程博士(生物与医药)医用电子与信息工 程技术方向 2.报名单位:正式报名系统选择"生物医学工程学院". 3.导师:正式报名系 ...
- 2020年中山大学数据科学与计算机学院夏令营面试
中山大学夏令营面试 先上图 后图 首先是10mins的PPT自我介绍,然后接下来是答辩环节. 英文问了最喜欢的编程语言? 弱听聋哑儿童项目的专利? 快排的算法.时间复杂度,最坏的情况? 最后,我保留了 ...
- 中山大学数据科学与计算机学院复试分数线,2019中山大学数据科学与计算机学院考研复试分数线...
1.我院各专业复试分数线如下: 招生学科.方向代码 招生学科.方向名称 复试分数线 复试比例 (招生计划:复试人数) 070102 计算数学 385 1:2.00 081200 计算机科学与技术 34 ...
- 陈旭数据科学与计算机学院,陈旭(中山大学数据科学与计算机学院教授)_百度百科...
[PIEEE]Zhi Zhou,Xu Chen*, En Li, Liekang Zeng, Ke Luo, and Junshan Zhang,"Edge Intelligence: Pa ...
- 中山大学计算机系女教授,谢晓华(中山大学数据科学与计算机学院副教授)_百度百科...
[行人再识别]Zhanxiang Feng, Jianhuang Lai, andXiaohua Xie. Learning View-Specific Deep Networks for Perso ...
- 中山大学2019年研究生复试机试题目(数据科学与计算机学院)
\qquad本人在2019年9月参加了中山大学数据科学与计算机学院的推免面试,将模拟机试的题目记录如下.(正式机试时有原题出现) 小伙伴们复试加油哇!!!!! \qquad详细内容已放进网盘,需要的伙 ...
- 栾锟数据科学与计算机学院,山东女子学院学生会第四届第一任干部名单
秘书处: 部 长:迟 凯(工商管理学院) 副部长:张亚平(教育学院) 郑自立(会计学院) 宣传部: 部 长:张清环(艺术设计学院) 副部长:杨 帅(教育学院) 刘维海(艺术设计学院) 体育部: 部 长 ...
最新文章
- 【译】为什么我们在 API 中使用 GraphQL
- 在Spring MVC中使用Apache Shiro安全框架
- 脚本中判断Shell命令执行结果
- excel导入linux乱码怎么解决方法,,请大家都来看下,Excel导入有乱码?原因出在哪里?应该怎么解决?...
- windows计划任务+批处理文件实现oracle数据库的定时备份与恢复
- jQuery html表格排序插件:tablesorter
- css 修改文字基准线_css外部样式表怎么写
- Linux C++ STL用法介绍(1)
- mc有什么红石机器人_我的世界:MC黑科技!毁图仅需一秒 红石机器人真能移动!...
- 融云android系统消息,如何解决 嵌入融云SDK后, Android 手机收不到消息推送?
- python获取windows窗口的内容_Python实现遍历windows所有窗口并输出窗口标题的方法...
- ToB和ToC端产品分别指什么
- trim函数 html,trim函数的使用方法(你会用TRIMMEAN 函数吗?)
- 2023中国西部(西安)第六届城乡环卫新设备新技术与固体废弃物处理技术博览会
- 2019.10.26日常总结兼一码学成普及模拟4比赛选解
- 【数据挖掘结果】大数据企业的汇总信息
- 2023年4月14日,open ai 还是能接收到短信验证码
- 《飞轮效应》 - 系统动力学 - 增强回路 - 推荐序 /刘润
- python编程用什么软件?
- 丑小鸭到白天鹅的蜕变—棋牌游戏
热门文章
- 视频直播质量的评测和实现分享
- 网络和多媒体知识(2)
- 互联网晚报 | 以岭药业声明网传“连花清瘟防疫方”不实;​如果不能自负盈亏,马化腾称整个腾讯新闻砍掉都可以;小米卢伟冰继任总裁...
- 点云数据按高程赋色渲染
- JS开发HTML5游戏《神奇的六边形》(七)
- 千锋Android游戏开发基础视频教程-cocos2dMars版
- mysql使用联结的好处_Mysql-联结
- 51nod2657二进制数字
- 如何设置word从某一页开始第一页页码?今天介绍给大家
- 常用CAD快捷键命令大全