数据分析中,不少人存在或多或少的不严谨操作。本文大致列举一些

关于Fold Change的计算

Fold Change是差异biomarker筛选的一个常用步骤,一般大家都使用两组的均值相除进行计算。但是,对于非正态分布,使用均值相除是否合理?以下找几个特殊案例进行分析

存在异常值时

A组:1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 7, 10, 36, 均值为6.33, 中位数为4,且数据集中趋向于3-4附近.

B组:3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10, 11, 均值为6.33, 中位数为6,且数据集中趋向于5-6附近

可见,存在异常值时(尤其是样本量不够大时),采用均值可能得出不够有表征能力的FC值。

存在偏态分布时

A组:1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 5, 5, 6, 8, 10, 均值为4.0, 中位数为3,且数据集中趋向于3附近.

B组:0, 1, 2, 2, 3, 4, 4, 5, 5, 5, 5, 5, 6, 6, 8, 10, 均值为4.4, 中位数为5,且数据集中趋向于5附近.

可见,存在偏态分布时,采用均值也可能得出不够有表征能力的FC值。

何去何从

虽然我们会遭遇上述情况,但是大多数情况下,均值与中位数的表征能力差别不会太大。当某组数据杂乱无章(双峰甚至多峰分布)时,这个特征可能并不是理想的特征。当数据存在偏态分布时,顶多只会稀释差距,而对于真正有价值的特征,这点稀释也还能接受。

GSEA官网中,gene rank采用的几种方式中,Fold Change默认采用的是通过均值计算(虽然可以修改成中位数计算方式)。建议对于一般情况,仍然可以采用均值计算FC值。以下摘自文字及截图GSEA官网:GSEAUserGuide

To use median rather than mean expression values, set the Median for class metrics parameter to True, as described above.

GSEA官方推荐的是Signal2Noise来对gene进行排序。从公式上来看,Signal2Noise的正负性与log2FC的正负性是一致的。笔者基于强迫症,进一步使用R计算了基于均值的FC值,和GSEA软件Signal2Noise跑出来的基本一致(正负数个数一致,13K基因只偏差了1个,log2FC为0的有好几个,可能截点选取规则不同吧)。至少说明,GSEA做富集分析时,默认基于均值计算rank,这也是大家公认的。

GSEA富集分析的rank规则,是否可以自定义?比如采用模型权重w值?

关于Fold Change的界值

这个在之前的博客里讨论过。

数据分析中的严谨问题相关推荐

  1. 二维数组离散程度matlab,(十八)数据分析中的一些概念

    (十八)数据分析中的一些概念 HIKAI 29 SEP 2017 0 Comments 矢量.向量.标量 矢量和向量是一个东西,只是在不同领域里面用到的不同称呼.矢量常常用在物理学中,向量在数学.几何 ...

  2. hive建立内部表映射hbase_快手 HBase 在千亿级用户特征数据分析中的应用与实践...

    分享嘉宾:陈杨 快手 编辑整理:Hoh Xil 内容来源:BigData NoSQL 12th Meetup 出品社区:DataFun 注:欢迎转载,转载请注明出处. 快手建设 HBase 差不多有2 ...

  3. 聚信立数据科学家甘建铃:孙子兵法在数据分析中的应用

    转载请注明出处:乐投网 - 聚信立数据科学家甘建铃:孙子兵法在数据分析中的应用 中国春秋时期有位名家孙武,写过几篇文章,称为兵法.孙武凭其兵法在吴国获得重用,任命为大将军,西破强楚.南服越国.北威齐晋 ...

  4. 大数据分析中使用关系型数据库的关键点

    相当一部分大数据分析处理的原始数据来自关系型数据库,处理结果也存放在关系型数据库中.原因在于超过99%的软件系统采用传统的关系型数据库,大家对它们很熟悉,用起来得心应手. 在我们正式的大数据团队,数仓 ...

  5. 数据分析中会常犯哪些错误,如何解决的?

    错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所 ...

  6. 浅谈数据分析中的“暗物质”

    浅谈数据分析中的"暗物质" 我们分析数据,更重要的是看到数据中所隐藏的暗物质,即数据图中你看不见的数据\逻辑\知识. 开门见山,以下是某新闻媒体WAP\APP\PC三端的分周中和周 ...

  7. 数据分析中,你认为用户行为分析最重要的点是什么

    数据分析中,你认为用户行为分析最重要的点是什么 对着满屏的数据,来做用户行为分析,是不是茫然不知所措? 做用户行为分析首先要确定你的目标.目标是降低成本(比如做渠道分析,优化渠道),增加收入(比如分析 ...

  8. 数据分析中的两种偏差

    总第171篇/张俊红 今天给大家介绍一下数据分析中常见的两种偏差:选择性偏差和幸存者偏差. 1.选择性偏差 选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,是由于人为主观的选 ...

  9. 比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用

    今天给大家讲讲芯片数据分析中常见的一些图的作用,让大家伙儿知道它们在BB些啥. 箱式图(Box plot) 基因芯片的原始数据是需要进行标准化处理的,主要目的是消除由于实验技术(如荧光标记效率.扫描参 ...

最新文章

  1. iOS-UIWebView添加头部和尾部
  2. 海量数据处理:BitMap
  3. camunda 流程执行追踪_九思OA项目管理解决方案:规范企业项目流程,掌握项目进展...
  4. openpyxl 绘制饼形图_openpyxl3.0官方文档(13)—— 饼图
  5. OpenCv2 学习笔记(1) Mat创建、复制、释放
  6. python集合是有序的吗_python set有序吗
  7. python 用元类 type 实现对数据库的ORM 映射
  8. STM32那点事(5)_ADC(下)
  9. CAN笔记(8) 优先级
  10. Atom飞行手册翻译: 3.5 创建主题
  11. 使用 Spring 进行单元测试
  12. linux ssh 域,Linux SSH 与 SCP命令简述
  13. AspectJ入门(一)
  14. 如何保持婚姻的新鲜感?
  15. matlab虚拟现实之V-Realm Builder2建模注意事项
  16. 旅游管理系统——你凭什么不被吐槽?
  17. 航天信息上传参数设置服务器设置,金税盘上传参数怎么设置?
  18. ICE入门之hello world
  19. 本人想了解CPU原理,大家能否推荐几本关于学习CPU原理的书?
  20. Variable Declarations

热门文章

  1. 优品商城-建表(user、member-goods、goods_cart、category、order、spec-address、province、city、county)
  2. Django视图学习——处理Http404异常
  3. 教你 IntelliJ IDEA 永久激活,建议收藏!(转)
  4. php 数字 字母组合,php随机生成数字字母组合的方法_php技巧
  5. 机器学习系列(三)——目标函数、损失函数以及代价函数
  6. Protocol handler initialization failed
  7. spyder汉化方法
  8. SQL 追踪(SQL Trace)
  9. 统一软件开发过程(RUP)分析
  10. 区块链在网络安全中有何作用?