http://www.nowamagic.net/librarys/veda/detail/2370我爱看侦探小说,看侦探小说最大的乐趣不在于知道结局,而在于侦探提出犯罪假设,到现场寻找线索,然后在脑中思考这些线索的关联和矛盾,从而建立犯罪真相的模型,最后将线索填入模型,Bingo!得出结论的思考过程。

这个主题将分享我的5个寻找真相模型,体验成为数据侦探的乐趣。

1.  因果关联模型

我上大学时,我发现一个非常有趣的规律。周围哥们和女朋友分手的概率是和他最近去学校小卖部的概率成正比的,我把这个叫做“超市夺妻理论”。

这个发现乍一看很令人惊讶,男人去超市的次数怎么会和与女友分手成正比关系呢?如果这两者没有关系,为什么数字上呈现明显的正相关呢?

仔细观察后我发现,事情原来是这样的。一般人去超市购买生活必需品的频率基本是相同的,同时一个人的生活习惯和购买习惯不会轻易改变的。但有一件东西的购买频率是很容易改变的,就是香烟。为什么呢?因为香烟和这个人近期的心情有很大关系。除了少数见人就发烟的豪杰,大部分人的香烟都是买来供自己抽的。

如果一个人最近抽烟数量猛增,一般只有两种可能。

  • 一是精神压力极大,这往往是因为生活上遇到了困难。例如考试考不出,工作找不到,考试没抄着答案,或是抄着了答案但是被发现了。这种情况下,这哥们会陷入低潮,心情失落,脾气特差,也疏忽了女友的感受,这些因素是感情产生了摩擦,导致了感情的裂缝最终导致分手。
  • 第二种可能是喜欢上了某种上瘾的嗜好。比如麻将,打牌,网游等等。这种比较刺激的大众文化娱乐活动非常耗费体力脑力,需要一只只的香烟提神。于是女友因为无法忍受男友的不求上进而提出分手。

上面这个例子说明了一件事情,当我们看待一个事件或者数据时,A和B同时发生,未必代表A和B有因果关系,他们可能只是有相关性而已。

因果关联模型就是在脑中建立一个报警器,当看到两个高度相关的事件或者数据时,敏锐的识别出他们究竟是因果关系还是仅仅只有相关性,以防止我们被表面现象或者所谓专家举出的别有用心的数据所迷惑。

2. 第三因素模型

我们知道了AB相关并不代表因果,那么尝试进一步思考,AB究竟为何会呈现如此高的相关性呢?背后的原因是什么?

答案是第三因素。也就是说AB之间存在一个隐藏的关系C,其实是AB和C发生因果关系。

例如,当我们发现一个地区燕尾服的销量越高,该地区的出生率越低。为了达到农民不要生太多孩子的目的,我们是否要求农民都穿着燕尾服去种地呢?

显然不是的。假设燕尾服的销量是A,出生率是B,那么一定存在一个经济发达指数C。当经济越发达,高级宴会等需要燕尾服的场合会相应增加,同时经济发达也造就了更多的丁克族,从而降低了出生率。所以我们可以说C导致了A,也导致了B。所以C才是和AB发生因果关系的幕后黑手。

第三方模型在因果关联模型的基础上提供了发现幕后驱动因素的思考方法。但是,现实生活中的第三方因素并不都像燕尾服的例子那么显而易见,我们应该如何通过科学的方法找到并确定第三因素呢?

3. “If…So…”控制模型

我们在思考的时候可以借鉴科学研究中常用的“控制实验法”。用最简单的语言解释“控制实验法”就是:确保其他因素不变,找到发生影响的根源。

心理学家Harlow做过一个非常有趣的实验。(例子来自于)他想回答一个困扰大众多年的问题,人们的恋母情节究竟是什么因素造成的,是因为母亲的哪方面特质是孩子迷恋母亲?当时流行的假设是因为母亲提供了食物(乳汁),其他可能的相关因素有体温(母亲抱着孩子),舒适的触感(孩子抚摸母亲)等。

Harlow用猴子做了实验,小猴将接触2个假的不同的母猴,经过一段时间后,看小猴更喜欢哪个母猴。实验中,他每次都保证其他变量不变,而只改变他要测试的变量,例如母猴子都不提供食物,体温都一样,但是只有触感不同。这样他就控制了第三方变量。

Harlow发现,一段时间后,相比起硬邦邦的电线制作的母猴子,小猴子明显偏爱触感更佳的绒线做的母猴子。然后Harlow再加入其他变量,例如温暖的电线猴子和冰冷的绒线猴子;能提供乳汁的电线猴子和不能提供乳汁的绒线猴子。他发现小猴子依然偏爱绒线猴子。所以他得出了恋母情结是来自婴儿时期抚摸的触感这个结论。

实验通过保证其他变量不变,而只改变要测试的量,来达到发现第三方变量的目的。

同样,当我们在思考的时候,我们需要在脑中建立一个“If…So…”的控制模型。当其他的条件不变,如果这个情况变了,那么事情会受到什么影响。那么我们就能辨别什么是事情的驱动因素。更重要的,一旦这个驱动因素发生了变化,我们就能最快预见到未来会发生什么。

4. 交互影响模型

但是,再一次,现实生活要比拿猴子做实验复杂的多。

例如,女人为什么会爱上某个男人?显然答案就不是一个简单的“金钱”,“外貌”,“性格”,“幽默”能够完全解释的了。这是一个多种因素结合的结果。这类由多种因素相互作用共同作用于结果的影响就叫做交互影响。

这个结论非常简单,但是放眼世界,我们能发现无数忽视交互影响的人。看一下财经博客就会发现,无数自封的经济学家或者投资专家依然在仅通过通货膨胀,CPI,某项技术性指标,央行的某项措施甚至罗斯柴尔德家族的动向等单一数据/信息解释股市的走向。

在脑中建立一个交互影响的模型,就是当看到一个数据/信息的时候,将该数据/信息放入过滤器过滤,判断是属于单一因素起决定作用,还是众多因素相互影响共同作用。如果是交互影响,又有哪些因素共同作用,哪些作用大?哪些作用久?哪些又对其他因素产生影响?

作为数据侦探,如果没有嵌入交互影响的思考模型,就会夸大片面数据/信息的影响,而得出错误的结论,变成屡犯错误的毛利小五郎。

5. 安慰剂效应模型

安慰剂效应的概念非常普及,也很便于理解。最经典的关于安慰剂的案例是,把相同病症的病患随机分成两组,一组吃最新研制的特效药,另一组吃无疗效的镇定剂;一段时间后,吃特效药和吃镇定剂的病患都认为自己的病症减轻了。

既然如此简单,那么为什么我们还需要建立一个关于安慰剂效益的模型呢?因为以上这个普及版的安慰剂概念是错误的。

为什么说是错误的呢?以上这个案例的内容结合“安慰剂”三个字会让人产生一种误解:病症的减轻是因为镇定剂带来的心理暗示(安慰)作用,所以由这种心理暗示(安慰)作用带来的以为自己好转的现象叫做安慰剂效应。

而事实上,安慰剂效应指的是,“错误地认为自己所采取的行动对结果产生了积极的作用,而最有代表性的例子就是服用安慰剂案例。”

在该案例中,让我们举一反三。人体本来就具有一定程度自我修复的功能,所以服用镇定剂一组确实可能好转,而并不是心理安慰的作用。同样,服用特效药一组的好转也可能是因为自我修复能力,而特效药可能根本是无效,是研发失败的。

安慰剂效应模型可以帮助我们质疑看似无懈可击的错误逻辑,发现隐藏的真相。正确的理解了安慰剂效应模型,我们就能看看它对我们是多么有效了。我们带着安慰剂模型再来尝试回答下列问题:通用电气的一时繁荣,是否真的来源于杰克.韦尔奇的改革措施?美国经济指标的好转,是否真的来源于奥巴马政府的经济措施?温室效应的日渐明显,是否真的来源于人类的污染行为?

还是因为,他们本来就会这样,即使我们什么都不做?

6. 因果方向模型

我有个朋友身高矮小,他常常后悔少年时代没有打篮球而是一直踢足球,因为他认为打篮球能帮助人长高。他的理由是,你看NBA的人都那么高,还不是打篮球打出来的?可是他错了。NBA的人不是因为打篮球所以长那么高,而是因为长得高,所以适合打篮球。

我们以为A导致了B的发生,可事实上可能正好相反。我们常常犯因果倒置的错误,从而得出完全错误的结论,这就是为什么因果方向模型如此重要。

此外,因果的方向不是固定的,是可能发生互换的。比如巴菲特早期选股凭的是眼光,他挑选可能会上涨的股票;而到了晚年,巴菲特选股可以靠影响力,他挑选股票的消息本身就会造成股票上涨,因为市场相信巴菲特的眼光。

所以,我们看待一个数据/信息时,需要首先找到它的假设前提。许多假设前提都是隐藏的,但却决定了作者基于假设的观点正确与否。因果方向模型提供了解构和质疑假设前提的一种思维方式。

正确思考的一个重点是正确的阅读和分析数据/信息。首先需要使用因果关联模型分辨关联与因果的差异性,在这基础上使用第三方模型寻找可能的驱动因素,通过控制模型确定真正的第三方因素。然后通过交互影响模型全面的认识本质,通过安慰剂效应模型了解现象改变的真正原因。最后通过因果方向模型结构信息的假设,从而正确认识数据/信息,形成自己的思考结论。

独立思考者模型:寻找潜藏在表象背后的真相 探寻真相的方法相关推荐

  1. 独立思考者模型:避开思维误区的沼泽

    作为一名优秀的数字侦探,你被邀请到一座豪宅调查主人被刺杀的案件.你已经知道了死者的死因,案件的凶器和罪犯杀人的大致过程,并通过明察暗访搜集到了重要的证据,最后经过高度逻辑化的推理找到了最有可能的嫌疑犯 ...

  2. 独立思考者模型:避开思维误区的沼泽 我们很多时很蠢

    http://www.nowamagic.net/librarys/veda/detail/2371作为一名优秀的数字侦探,你被邀请到一座豪宅调查主人被刺杀的案件.你已经知道了死者的死因,案件的凶器和 ...

  3. 为多模型寻找模型最优参数、多模型交叉验证、可视化、指标计算、多模型对比可视化(系数图、误差图、混淆矩阵、校正曲线、ROC曲线、AUC、Accuracy、特异度、灵敏度、PPV、NPV)、结果数据保存

    使用randomsearchcv为多个模型寻找模型最优参数.多模型交叉验证.可视化.指标计算.多模型对比可视化(系数图.误差图.classification_report.混淆矩阵.校正曲线.ROC曲 ...

  4. 多分类可以分成多个独立的模型来训练

    比如说分类类别有1000种,先基于所有数据训练一个一般的网络模型,可以处理所有这些类:然而发现有些混淆的类,在算法上 跟蘑菇极其相似,无法通过这个一般的模型来判断:所以需要做一些专门的训练,丰富了蘑菇 ...

  5. 独立级联模型线性阈值模型

    预备知识 一个社交网络描述成一张有向图G,其中V是节点的集合,E⊆V∗VE\subseteq V*VE⊆V∗V是有向边的集合. 每一个节点v∈Vv\in Vv∈V代表一个社交网络中的人,每一条边(u, ...

  6. ML:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/模型融合)之详

    ML之LightGBM:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训 ...

  7. 专访 | 小白也能搭建深度模型,百度EasyDL的背后你知多少

    专访 | 小白也能搭建深度模型,百度EasyDL的背后你知多少 部署深度学习服务非常困难,因此简单易用的图形化系统就显得极为重要.本文介绍了百度的图形化深度学习系统 EasyDL,用户可以不需要机器学 ...

  8. 让模型理解和推断代码背后的意图是预训练模型的核心挑战 | NPCon演讲实录

    分享嘉宾 | 卢帅 整理 | 王子彧 出品 | CSDN(ID:CSDNnews) 2023 年 3 月 25 日下午,在 CSDN 与<新程序员>联合主办的"新程序员(NPCo ...

  9. R语言DALEX包的model_profile函数对caret包生成的多个算法模型的连续变量进行分析、使用Acumulated Local Effects (ALE)方法解释某个连续特征和目标值关系

    R语言使用DALEX包的model_profile函数对caret包生成的多个算法模型的连续变量进行分析.使用Acumulated Local Effects (ALE)方法解释某个连续特征和目标值y ...

最新文章

  1. Linux下编译运行C程序
  2. onKeyPress与。 onKeyUp和onKeyDown
  3. python代码示例图形-使用Python统计函数绘制复杂图形matplotlib
  4. python类中方法的执行顺序-python – 新式类中的方法解析顺序(MRO)?
  5. 【C++多线程系列】【七】实现经典的C/S架构
  6. ubuntu java sdk_ubuntu 10.10安装java sdk6过程
  7. HTML、JSP、Servlet中的相对路径和绝对路径 页面跳转问题
  8. boost::describe模块实现打印枚举的测试程序
  9. 简单理解AOP(面向切面编程)
  10. 利用反射动态实例化类执行方法并传值
  11. layer弹出层闪退_jQuery使用Layer弹出层插件闪退问题
  12. java多线程回顾1:线程的概念与创建
  13. python量化投资19种方法_【Python量化投资】新手资源大合集
  14. MME连几个eNB的问题
  15. Unity制作简单3D图表
  16. ccf201809-2买菜
  17. webrtc录制视频
  18. 关于ios包破解激活码(一机一码)以及添加激活码(一机一码)大神进!!
  19. 计算机网络启动慢,关于电脑网络连接启动的特别慢的解决方法
  20. DD 摆磁铁(计蒜客信息学8月普及组模拟赛)

热门文章

  1. 能否用痰盂盛饭——谈谈在头文件中定义外部变量
  2. Asp.net上传文件限制,在大于5M的时候出现DNS解析错误,解决方法。
  3. DHTML之-----document.selection 的 createRange
  4. 用 Python 读写 Excel 表格,就是这么的简单粗暴且乏味
  5. php 写 mysql 事件_PHP日歷,包含來自MySQL數據庫的重復事件
  6. SpringSecurity 权限控制之异常处理流程图
  7. CompletableFuture线程串行化方法
  8. request的其他细节
  9. 分区数据导出功能(服务端实现)
  10. Nginx与Zuul之间区别