来自学霸的干货分享!

想了解数据方向的同学一定不要错过哟~

PS:不要收藏,一口气读完。

当然,也可以直接戳评论区看直播回放!

嘉宾背景

李大鹏,

北京工业大学电子信息工程实验班大四毕业生,

已保送至中科院自动化所攻读博士,

研究方向是人工智能与模式识别,

参加过很多数据科学竞赛,曾经获得过校级、省部级、国家级以及国际级奖励。

2019年参加中国数据马拉松比赛,和队友一起获得冠军并赢得10万元奖金。

1

Python爆火的原因

① Python的应用范围广泛

Python广泛应用于各行各业,目前主要的应用范围包括网络爬虫、数据处理、Web服务、数据分析、人工智能这五个大方向。

网络爬虫是指可以利用Python实现数据爬取,网页下载,网页解析,动态加载,爬虫框架等功能。
数据处理是指可以利用Python实现数据的清洗和储存,数据格式化,大数据处理等功能。其中做大数据处理时还会用到PySpark,hadoop这两个工具。
Web服务是指可以利用Python实现开发网页的功能,这个方向也是当前各种编程语言在就业方面需求最大的一个方向,在这个方向上Flask和Django是python的好搭档。
数据分析是指可以利用Python实现数值计算、数据可视化等,利用数据进行分析、优化和决策。
人工智能是指可以利用Python实现预测(分类\回归\聚类),也可以进行机器学习、深度学习、自然语言处理、推荐系统等。

② Python简单易上手且简洁

以实现快速排序为例,Python的代码量几乎只有java的一半。

③ 需求大,薪资高

Python目前是就业市场上最受欢迎、也是最热门的技术之一,非常容易上手,学会了Python可以提高IT人的竞争力;

对于非IT人来说,学会Python对于个人提升来说会更大,对于自身的行业会起到很大的帮助,比如做报表、一些数据的excel表格,都可以通过学习Python在很大程度上提高工作效率,因为Python的应用范围非常广。

④ Python语言学习的正反馈非常强

相比其他语言,Python有很多的封装库,在很短的时间就可以通过封装库实现一些小的有意思的项目,正反馈会非常强。

小结

Python终究是一种工具,学得再好也在于如何去运用。

而因为Python的扩展库非常多,我们更应该结合自身的情况有针对的去学习并加以实践,才能避免学习到重复的内容,也避免学到的知识没有用武之地。

未来的十几年,一定是人工智能、万物互联的时代,现在这些人工智能离我们越来越近,需要处理的数据也变得越来越海量,而Python最大优势就是非常方便去处理数据。

可能Excel需要好几天才能完成的重复工作,Python只需要几行代码在短时间内就可以完成,所以可以相信Python在未来几年会越来越火,而人工智能也会像学习计算机和英语一样,成为人们必备的技能,虽然并不一定每个人都需要精通,但我们至少不能完全不了解它。

2

学霸建议——如何学习python并运用呢?

① 阅读文档式

通过查看官方的一些文档,或者是别人写好的一些按知识点整理的文档。

推荐2个学Python的网站,见评论~

它们把Python的语法按一个个的知识点整理后按条列出来。

这种方法的缺点在于它的知识点上下之间没有衔接,学完之后可能会对语言的整体缺乏一个认知,因此,这种方法比较适合在有其他语言基础的前提下快速看一遍,大致了解Python与其他语言的区别和一些专属特性。

如果要学习些Python的扩展库,比如说Matplotlib

(https://matplotlib.org/gallery/index.html),

它是Python里面的一个绘画库,它的官方文档会很详细的,把它能绘制各种什么样的图片都给列出来,在用的时候,你需要某种图,但不知道这个图叫什么,就可以去官方文档看一看,找到想要的那种效果,然后去仔细查阅这种效果是怎么画出来的。

② 阅读书籍式

语言方面

学Python的话,语言方面可以用《Python基础教程》、《Python编程从入门到实战》这两本来入门。

这两本选一本学就可以,《Python基础教程》讲得非常详细,Python的各种语法基本全部都讲到了。如果只是想要快速应用这门语言的话,可以学习一些快速应用类的书。

机器学习
机器学习推荐三本书。

第一本是《机器学习实战》,这本书偏实践,里面有很多的代码和实例子,理论讲解可能相对来说较少,但是内容通俗易懂;

第二本是《统计学习方法》,这本书偏理论,而且讲的也比较细,把这本书好好读懂,就可以把机器学习的基础打牢固;

第三本是在机器学习方向很有名的一本书,是南京大学人工智能专业的一个教材,是周志华教授写的《机器学习》。

深度学习

深度学习方向的话,建议大家入门首先学习一下深度学习的基本理论,之后就可以选定一个具体的深度学习库来进行学习。

现在主流的深度学习库有tensorflow\keras\pytorch等等,我比较推荐的推荐,是keras\pytorch,因为这两个库是最近比较流行的,它封装程度比较高,你可以用尽量少的代码去实现一些任务,避免重复的去写一些代码。

《深度学习入门》

这本书是我最喜欢的一本深度学习书之一,讲的很通俗易懂,主要教大家如何手把手搭建神经网络。

《Python深度学习》

这本是keras的一个教学书,它即有神经网络深度学习的理论,也有讲如何用keras实现对应的功能。

《Hands-OnMachine Learning withScikit-Learn&Tensorflow》

则主要讲Scikit-learn和tensorflow库。

③ 视频学习式

有很多同学可能比较喜欢通过网课来学习,这里推荐吴文达的网课(神经网络和深度学习),入门非常合适,国内从网易云课堂就可以看到。

国外的coursera上面也有很多优质的编程和数据科学类网课,在百度上就可以搜到。

3

竞赛分享

学完前面提到的内容(Python基础,数据处理,模型搭建),其实就已经可以参加数据科学比赛了。

但如果想要做好一场数据科学比赛,甚至拿到名次,我们还需要学习探索性分析(EDA)和特征工程(FE)。

探索性数据分析(ExploratoryDataAnalysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。EDA的学习方法,我觉得是多去看大牛们做的EDA,做得非常优美!

特征工程尝试通过从原始数据创建新的特征,帮助简化学习过程,从而增加学习算法的预测能力。

需要学习的内容很多,不同领域甚至不同赛题都有不同的技巧,最好的学习方式还是实战。

下面着重介绍一下国内在数据方面最有代表性的一个比赛——中国数据马拉松大赛,也是我去年拿到冠军的一个比赛~

中国数据马拉松大赛

① 大赛介绍

数据马拉松(DATATHON)是一项新颖的数据竞赛,使用数据科学,以有趣的社会和商业问题为题,引发思维碰撞,产出优质的创新方案。因为其新颖的吸引人才方式,数据马拉松在全世界享有盛名,曾被写入哈佛商学院案例。

第三届中国数据马拉松大赛(ChinaDatathon)由中国权威的人力资源服务商前程无忧(Nasdaq:JOBS)与美国专业数据人才解决方案公司CorrelationOne公司联合推出。近日开启在线报名,并将于7月4日进行在线总决赛。

② 大赛的亮点

免费参赛,和数据领域内最优秀的人才比拼赢取几万奖金;
可以与知名企业近距离接触和了解就业机会,甚至有可能赛后直接拿到大企业的offer;
你还能认识许多有趣的灵魂,而且还有可能成为志同道合的朋友。

③ 参赛经验

首先,这是一场数据分析比赛,去年的赛题是给了英国脱欧的数据,让我们在一上午时间根据团队的分析做出一份开放性报告,没有标准答案和方向。

这种开放性的分析类的赛题在我看来并不需要过于追求高大上的模型,更重要的是对数据的分析是否有独到的见解和实际意义,或者能否让人眼前一亮。

既然是数据分析,那给大家的建议就是赛前提前准备好EDA这些流程的所需要的工具,并且在获得赛题后对题目背景做好充足的了解。

我认为,我们队获胜的因素有以下几条:

有完整的数据预处理(缺失值,异常值,假设检验)
美观的可视化和合理的数据分析
提出了具有亮点的分析角度(从地域性差异来看英国脱欧的区别)
针对我们的数据分析提出了切实的建议,既有整体建议也有各地区的措施建议。

数据最终是要为现实生活服务的,不能只有高大上!

注意事项:今年比赛是线上个人赛,并且面向在校学生和在职人士。因为今年的赛制有所调整,所以我们的经验仅供大家参考。

Python还能火多久?相关推荐

  1. python还能火多久 搜狐_老像样了:基于Python的东北话编程语言,火了

    来自:开源最前线(ID:OpenSourceTop) 项目地址:https://github.com/zhanyong-wan/dongbei 还记得12月份刷爆朋友圈的那个文言文编程语言么? 这个项 ...

  2. 传智教育|Java目前市场趋势怎么样?Java还能火多久?

    Java年年被唱衰,于是很多想要学习的小伙伴就开始犹豫不决,总是担心学了之后Java招聘量直线下降,从而陷入不得不内卷的境地. 因此就Java还能火多久这个问题,给大家做一个系统的回答. 1.市场需求 ...

  3. “直播带货”还能火多久?

    这一年来,直播带货一直都挺火,从2019年淘宝双十一超过200亿的直播带货的规模,到2020年因为疫情各种线下服装店.超市因为封锁纷纷转战线上,各种老板CEO直播下海,一派生机盎然,加上李佳琦和薇娅, ...

  4. SASE究竟还能火多久?

    过去的2021年被称为SASE(安全访问服务边缘)元年,随着Gartner在2019年对SASE理念的提出,这个词语一直占据着各大网络平台的技术文章,行业报告中.直到2021年,SASE相关产品陆续出 ...

  5. 抖音 K.O. 快手之后还能火多久?

    本文来自作者 tepy 在 GitChat 上分享「抖音 K.O. 快手之后还能火多久?论抖音的运营之道」,「阅读原文」查看交流实录 「文末高能」 编辑 | 泰龙 前段时间,朋友圈忽然刮起了妖风,各种 ...

  6. 计算机行业到底还能火多久?

    有人发贴说自己是2020届本科毕业,专业应用数学,打算考研,问该不该考计算机专业,农村贫困家庭,没有什么爱好,只希望以后的工作挣钱就行了,就是害怕三四年以后读研出来计算机行业不行了. 那么,计算机行业 ...

  7. cf四大服务器位置,CF:从最初的42个服务器到现在的四大战区,穿越火线还能火多久?...

    原标题:CF:从最初的42个服务器到现在的四大战区,穿越火线还能火多久? 穿越火线于近日进行了一波重大的更新,最引人注目的就是"跨区作战"了,也就是我们所说的合区,从2017年开始 ...

  8. 计算机究竟还能火多久

    计算机究竟还能火多久? 最近十几年来,计算机,互联网,移动互联网,物联网这些词汇始终聚焦着人们的视线.一是因为纵观人类整个历史,也很难发现有哪个行业会像互联网这样对人们的生活方式,社会运作产生如此巨大 ...

  9. 科技巨头们跑步进场,NFT市场还能火多久?

    2021年8月23日,全球第二大卡片支付组织Visa宣布,花了15万美元买进该公司第一个NFT,开启NFT新篇章.那是由Larva Labs创作的CryptoPunk 7610,购买价格为49.5个E ...

最新文章

  1. IOS用CGContextRef画各种图形(文字、圆、直线、弧线、矩形、扇形、椭圆、三角形、圆角矩形、贝塞尔曲线、图片)
  2. sizeof你真的弄明白了吗?来看看这个例子
  3. CSDN博客PDF格式文件导出【转载】
  4. 【算法】动态规划笔记
  5. 计算机网络-自顶向下方法(7th) 第一章 Review Questions 中英对照
  6. Spring AOP高级——源码实现(2)Spring AOP中通知器(Advisor)与切面(Aspect)
  7. Linux修改用户名(主机名)
  8. 刀下留人--苹果开发者账号封号前挽救
  9. 设计模式--C++学习(4)
  10. SQL Server evaluation period has expired
  11. JavaSE_第十一章:常用类
  12. 天池大赛-心跳信号分类预测:探索性数据分析
  13. Mysql数据库计算时间差(天,时,分,秒)
  14. Win11或Win10重置电脑提示“找不到恢复环境”
  15. 视通科技知识产权保护中心审理庭解决方案
  16. ubuntu上安装RobotFramework+ride
  17. Java医院分诊挂号管理系统SSH医疗住院(含源码+论文+答辩PPT等)
  18. Android Studio中的手机通讯录开发
  19. 经典ASP代码大集合
  20. 智能空气测试仪“清心”

热门文章

  1. 拥有有趣灵魂的程序员们,程序员访谈(一)
  2. i3 10100f和i5 9600kf 哪个好
  3. 记录渗透靶场实战【网络安全】
  4. 为App签名(为apk签名)
  5. 如何查看linux系统版本
  6. (论文阅读)NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing
  7. 生成全排列算法的实现(Johnson-Trotter)
  8. 思考是勤奋的一部分,人最大的懒惰是思想懒惰
  9. 搭建CTPN网络(基于windows与tensorflow)
  10. 虚拟打印机adobe PDF