前言

让我们以一个小练习开始本文。请拿出笔和纸,一有答案就写下来。不要反复思考,应该在15秒内完成。

请在纸上写下对于“一个成功的数据科学家需要哪些技能?”的问题的答案。

很多读者可能已经写过代码,有着关于分析工具、统计学等等的知识。要成为一个成功的数据科学家,这些当然是必须的,但还远远不够。

区分一名分析学家/数据科学家好坏与否的最重要的技能之一是:面对复杂问题,确定分析框架,简化假设,分析问题,然后找到解决方案。至于那些分析工具只是用来解决问题的手段和方法而已。

在本文中,我们将通过一个案例分析来学习系统化解决问题的方法和步骤。

你会学到什么呢?

在这里你会发现用实际问题来训练你的大脑在解决复杂问题的过程中以分析的方法进行思考。这个大脑训练不仅可以把解决问题的新方法介绍给你,还会使你在跟数字打交道时反应更快。

我以前的一篇文章“how to train your mind for analytical thinking?”应该会给你一个良好的开端。(文章地址:http://www.analyticsvidhya.com/blog/2014/01/train-mind-analytical-thinking/)

实际问题

这是我每天的作息表:

每个工作日,我上午10:30准时出门上班。有时考虑到我当天要完成的工作量,我会开快些以便尽量早到(当然是在保证安全的前提下)。

然而,在过去的5天内,我发现无论在每个红绿灯之间的平均速度如何,我几乎都是在同一时间到达办公室。这让我感到有些好奇,每天上班路程上所要花费的时间是否取决于我的车速?换句话说,总平均速度都会被红绿灯调整到同一水平,而不取决于我们开车的速度。

为了解释地更清楚,请思考一个简化后的场景:

两辆汽车同时从A点,即第一个红绿灯出发。B点是另一处信号灯(,等待时间为60秒,通行时间20秒。A和B之间的距离为600米。第一辆车的启动速度为6米/秒,第二辆车的启动速度为5米/秒。哪一辆车会先通过红绿灯(B点)呢?下面是一些假设:

1. 红绿灯是根据汽车的平均速度来设置的,它会在第一个红绿灯变绿之后120秒(600米/(5米/秒))变绿。

2. 绿灯会持续20秒,红灯持续60秒(20*3)

假设两辆车都是从0秒出发。

车1到达B点所需的时间 = 600/6 = 100秒

车2到达B点所需的时间 = 600/5 = 120秒

B点为绿灯的时间区间为:(40,60);(120,140); (200,220); (280,300)

因此,汽车在61秒或者140 秒时到达B点并不影响通过第二个红绿灯的时间。让我们来计算在不影响汽车通过第二个红绿灯的情况下的最小速度和最大速度。

最小速度 = 600米 / 120秒 = 5米/秒 = 18 公里/小时

最大速度 = 600米 / 61秒 = 9.8 米/秒 = 35 公里/小时

不管你的速度是18公里/小时还是35公里/小时,你都会在同一时间通过B点。通常来说,在交通高峰期,驾驶的速度不可能在这么大的范围内变化,因此现在我的猜测看上去是有道理的。我可能无法控制从家到办公室所需要的时间(当然,这是把问题简化了很多之后的情况)。

让我们把问题复杂化一点!

现在我们有四个红绿灯 A,B,C和D。同样的,两车从A开始 0秒出发,A到B、B到C和C到D的距离相等。那么问题变成,哪辆车先通过红绿灯D。

不需要用到数学知识,就能得到答案。如果两车在同一时间通过B,由于A到B与B到C及C到D距离是一样的。因此两车会同时通过D。这个场景事实上更极端,如果一辆车以平均时速18公里行驶,另一车以平均时速35公里行驶,他们还是会同时通过D。这进一步验证了我前面的假设。

这个问题归结为:

“在我开车去上班的时候,我是不是只是一个受交通规则控制的无助的木偶?”

让我们试试把它归结为一个参数方程

在本文中难以全面分析实际情况,因此我们在一些假设上进行分析:

1 红绿灯显示为绿灯的时间为 t 秒, 之后显示为红灯时间为3t秒;

2 在路上汽车的平均速度为 v米每秒;

3 开快车的速度是汽车平均速度的x倍;

4 道路长度为L米(两个红绿灯之间距离为L米)。

到目前为止,我们已经明白,就算我们解决了处于一对红绿灯或更多对红绿灯之间的问题也不重要。如果开快车的驾驶员能够在红绿灯显示绿灯期间超过以平均时速行进的汽车,那么答案就会不同,否则开快车是没有用的。

因此,要让这个结果发生所需要的时间差就是3t。下面是解决问题的最终方程式:

普通车用时L/v秒

快车用时L/vx秒

简化后

L/v –Ll/vx > 3t

已知x, v,L和t都是正数,方程式可以进一步简化:

xL- L – 3tvx > 0

x (L- 3tv)> L

你成功了!我们知道L总是正数,因此为了让上面的方程式成立,x和(L-3tv)也一定要是正数。也就是说,如果 3tv 比L 大,你就没机会打败那些红绿灯。例如,如果t= 30秒, v= 5米/秒,L 为145米,即使你的车速跟子弹一样快,你也没有机会。

让我们设定其中几个参数,然后更深入地理解一下方程:

假设L为600米,那么方程变成:

x(200 – tv) >200。

因此,这里有一些经验法则让你有可能打败那些红绿灯:

1. 尽量减小 t (红绿灯变化周期): 在红绿灯变化交替很快的快速区域,你可能打败那些红绿灯。

2. 尽量减小 v (道路上车辆的平均速度):如果车辆平均速度很慢,车速快的就能超过车速慢的。

3. 尽量加大x (车速相对于平均车速的倍数): 如果我们开得超级快,我们还是能打败红绿灯的。但是注意如果 vt大于200,你就不可能赢。

让我们试试将一些关系进行可视化。

在班加罗尔,t的平均值大约是20秒,平均车速 v 为 5米/秒。那么方程式就是:

x (L – 300) >L

从上图中可以看出,只有当 x 和L大到可以落在阴影范围内时,我们才有可能击败红绿灯。

让我们来总结一下我们的发现:

1 如果某段路的长度比三倍的绿灯时间和平均车速的乘积小,那么你开多快都没用。

2 如果下列条件合适,我们才可能打败红绿灯:

a x值大。 我们开得飞快(不安全的选择)

b L值大。比如在高速路上开快车是有道理的。

c t值小:在红灯显示周期很长的路段开快车没有意义。

d v值小:如果在路上的平均车速真的很慢,我们还是可以打败红绿灯。我们已经知道了!

结语:

我希望你可以很享受解决这个交通问题,当然你的思维受到了挑战,这也是本文最初的目标,对吧?

本文中,通过红绿灯的例子和应用一些基本物理学概念,我解释了一些必要的技能,这些技能是成为一个数据科学家不可动摇的基础。

你是否欣赏这篇文章呢?你以前有没有思考过这一类问题呢?你觉得你能不能进一步完善优化这些计算方法来让它们更有具现实意义呢?

敬请在评论区留下您宝贵的建议和意见,谢谢!

原文发布时间为:2015-07-27

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

数据科学家所需的大脑训练相关推荐

  1. 成为数据科学家,需具备这些技能

    目前数据科学和数据科学家成为了流行词汇.当有人问你干什么,你回答说数据科学家,对方会恍然大悟,觉得特别高大上,噢,数据科学家啊,听说过.是啊,没听说过数据科学家那就out了.如果接着问,数据科学家具体 ...

  2. 【数据科学】数据分析的思维训练

    介绍 让我们通过一个小练习开始本文.拿出笔和纸,写下你想到的答案.不要再思考两次了,你不应该花费超过15秒的时间来完成它. 在本文中,请写下"成为一名成功的数据科学家需要哪些技能?" ...

  3. 杰出数据科学家的关键技能是什么?

    本文为 AI 研习社编译的技术博客,原标题 : What is the key skill that the best data scientists have? 作者 | André Sionek ...

  4. 数据分析中的统计概率_了解统计和概率:成为专家数据科学家

    数据分析中的统计概率 Data Science is a hot topic nowadays. Organizations consider data scientists to be the Cr ...

  5. 大数据 端到端_成为数据科学家的端到端指南

    大数据 端到端 数据科学提示/入门指南 (DATA SCIENCE TIPS /BEGINNERS GUIDE) Data Science has improved considerably over ...

  6. 如何解决数据科学家、数据工程师和生产工程师的阻抗失配问题

    构建一个可扩展.可靠和高性能的机器学习(ML)基础架构并不容易.这比用Python构建一个分析模型要花费更多的精力. Uber已经为许多生产中的用例运行了其可扩展和不依赖框架的机器学习平台Michel ...

  7. 中国的数据科学家阶层正在形成

    有人给予了大数据专家许多美好的称号,比如"数据开采者"."数据建筑师"等,但其中最时髦的当属"数据科学家".当记者在互联网上搜索" ...

  8. 如何成为数据科学家_成为数据科学家需要了解什么

    如何成为数据科学家 Data science is one of the new, emerging fields that has the power to extract useful trend ...

  9. 身为数据科学家怎么能不掌握这四大技能!

    来源:大数据文摘 作者:seattle data guy 编译:王梦泽.吴双.蒋宝尚 想成为一名高级数据科学家除了拥有卓越的专业技能,你还需要其它技能来拉近和业务经理的距离.这看起来简单,但随着每年新 ...

最新文章

  1. Debain 7.2安装配置
  2. c++矩阵作为函数输入变量_C++实现矩阵乘法
  3. 22.PATH环境变量
  4. 操作系统原理之操作系统简介(第一章)
  5. Android之放大镜实现的两种方式
  6. 基于python的科技论文_实地科研 | 上海财经大学 | 金融科技、商业分析、人工智能:机器学习、人工智能及其在金融科技中的应用(2021.1.25开课)...
  7. OpenShift 4.5 新特性 - 创建任务和定时任务
  8. [nRF51822] 1、一个简单的nRF51822驱动的天马4线SPI-1.77寸LCD彩屏DEMO
  9. 【三维路径规划】基于matlab球面矢量粒子群算法无人机三维路径规划【含Matlab源码 1682期】
  10. Raki的读paper小记:A Concise Model for Multi-Criteria Chinese Word Segmentation with Transformer Encoder
  11. 软件设计师教程(第5版)- 前言和目录
  12. Chrome浏览器添加fehelper插件
  13. 渗透测试神器Nmap使用教程
  14. 网络安全从小白到专家
  15. vue-事件修饰符-详解(.prevent .stop .once .capture .self)
  16. 政府应用系统应用解决方案
  17. go.php跳转外部浏览器,Go调用浏览访问url链接
  18. 酬乐天扬州初逢席上见赠 唐 · 刘禹锡
  19. 电脑连接wifi后,显示 无Internet 安全
  20. 拓展KubeVela模块,看addon如何助力开放生态

热门文章

  1. 为什么机器学习模型在生产中会退化?
  2. 人脸识别进校园引争议 “人工智能+教育”应审慎
  3. Python 之 matplotlib (十六)Animation动画
  4. Python 之 matplotlib (十)Image
  5. Stuart Russell:智能本质和人工智能安全的巨大挑战
  6. 基金委最新改革:9大科学部整合为4个板块资助布局
  7. 下一个十年的C位:物联网产业全景解析
  8. 麦肯锡:企业数字化转型不要被技术“绑架”
  9. 产业|一文读懂自动驾驶汽车产业链上下游
  10. 5G风起,四大IoT迎风爆发!智能家居与电表高速增长