Question 1:什么是t-SNE?
t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种非线性降维技术,特别适用于高维数据集的可视化。它广泛应用于图像处理、NLP、基因组数据和语音处理。
t-SNE 工作原理如下:算法首先计算点在高维空间中的相似概率,然后计算相应低维空间中点的相似概率。点的相似性计算为条件概率,如果在以 A 为中心的高斯(正态分布)下按其概率密度按比例选择邻居,则点 A 将选择点 B 作为其邻居。然后,它尝试最小化高维空间和低维空间中这些条件概率(或相似性)之间的差异,以完美地表示低维空间中的数据点。
为了测量条件概率差之和的最小化,t-SNE使用梯度下降法最小化总体数据点的Kullback-Leibler 散度之和。(Kullback-Leibler 散度是衡量一个概率分布如何偏离第二个预期概率分布的方法)
简单来说,t-SNE最小化了两个分布之间的差异:一个分布测量输入对象的成对相似性,一个分布测量嵌入中相应低维点的成对相似性。通过这种方式,t-SNE 将多维数据映射到较低维空间,并尝试通过基于具有多个特征的数据点的相似性识别观察到的集群来找到数据中的模式。但是,经过这个过程,输入的特征就不再可识别了,你不能仅仅根据 t-SNE 的输出做出任何推断。因此它主要是一种数据探索和可视化技术。

Question 2:t-SNE与PCA有什么区别?
PCA 和 t-SNE 各有优缺点,PCA 和 t-SNE 之间的一些主要区别如下:
①t-SNE 的计算成本很高,在百万样本数据集上可能需要几个小时,而 PCA 将在几秒钟或几分钟内完成。
②PCA 它是一种数学技术,但 t-SNE 是一种概率技术。
③线性降维算法,如 PCA,专注于将不同的数据点放置在较低维度的表示中。但是为了在低维非线性流形上表示高维数据,必须将相似的数据点紧密地表示在一起,这是 t-SNE所没有的。
④有时在 t-SNE 中,具有相同超参数的不同运行可能会产生不同的结果,因此在使用 t-SNE 进行任何评估之前必须观察多个图,而 PCA 则不是这种情况。
⑤PCA 是一种线性算法,它无法解释特征之间的复杂多项式关系,而 t-SNE 则可以准确地捕捉到特征之间的多项式关系。

Question 3:如何不使用R语言绘制t-SNE分析图?

小编和他的小伙伴们开发了一个在线的作图小网站——云图图(https://www.cloudtutu.com/#/index,免费的哦~),操作步骤如下:
①登录网址:https://www.cloudtutu.com/#/index(推荐使用360或者谷歌浏览器)
②输入用户名和密码(小编已经为大家填好了,如果不显示可添加文末二维码添加小编获取),输入验证码后即可登录,无需注册,直接使用,不必担心隐私泄露,是不是诚意满满~
③登录后在工具一栏(全部分析)里找到t-SNE分析,点击进入;
④请按照界面右侧的说明书或者下文进行操作,即可在2分钟内获得一张精美的t-SNE分析图喽~
话不多说,我们开始行动吧~

Step 1:上传数据

※目前平台仅支持.txt(制表符分隔)文本文件或者.csv文件的文件上传。
平台可对不规范的数据格式进行部分处理,但还是请您尽量按照示例数据的格式调整数据,以便机器可以识别。
a)准备一个数据矩阵(形式参照示例数据,如微生物物种丰度表、基因表达量矩阵、代谢物含量表,也可以是测量数据,例如身高、体重、表型等)和一个otu序列表;
b)丰度文件表格需要带表头和列名,每一列为样本名,每一行为各种指标数据名,例如OTU、基因ID、身高、代谢物名称等。
c)请提交txt(制表符分隔)文本文件或者.csv文件。操作方法为:全选excel中的所有内容(ctrl+A),复制到记事本中,将记事本文件另存后上传该文件。

※传完文件后一定要填写说明书下方的分组信息!否则无法绘图。

Step 2:调整参数

2.1 分组信息:需要对所有样品进行分组。在说明书下方,本网站支持在线修改分组名称的功能。可在线输入(方式一)和手动粘贴(方式二)(绘图前务必检查分组名称)。

2.2 perplexity:perplexity为困惑度,由用户指定,应该小于(nrow(X) - 1)/3.困惑度越小,得到的聚类簇越多,越分散;困惑度越大,得到的聚类簇越少,越集中。
2.3 元素大小:显示元素的圆点图形大小;
2.4 椭圆粗细:按需求自行设置
2.5 是否显示标签:按需求自行设置
2.6 标签大小:按需求自行设置
2.7 是否添加椭圆:
椭圆一:按照正常计算方式得到分组椭圆(有些结果可能无法添加分组椭圆)
椭圆二:对无法正常添加分组椭圆的数据强行添加分组椭圆。
否:不添加分组椭圆(如下图)

Step 3:下载文件
根据个人需求进行参数调整后点击运行后等待5-10秒即可下载结果,平台提供PDF格式的矢量图下载。

Step 4:作图后处理
TUTU云平台提供的是PDF格式的矢量图,可通过矢量图处理软件(Inkscape或AI)进行编辑和调整(如:文字字体,文字大小,图片分辨率等)。图形处理软件和使用方法可扫描文后的二维码添加小编微信获取。

写作建议

t-SNE analysis was performed on Tutools platform (http://www.cloudtutu.com), a free online data analysis website.
Fig A: 2-dimensional projection via t-SNE of the sequence embedding space from 14,520 KEGG 16S sequences. The position of each sequence (points) are colored based on their phylum designation. Fig B: t-SNE projection of sequences that belong to different genera within the same family. (参考文献:16S rRNA sequence embeddings: Meaningful numeric feature representations of nucleotide sequences that are convenient for downstream analyses)

尊敬的用户,如果图图云平台在您的科研中有幸提供了些许帮助,我们期望您能在方法学或者致谢中提及我们,引用方法如下:XXXX analysis was performed on Tutools platform (https://www.cloudtutu.com), a free online data analysis website. 目前平台还处于测试阶段,使用过程中有任何疑问或者报错欢迎随时联系小编反馈。您的反馈和建议是我们最大的动力~

在线作图丨数据降维方法⑤——t-SNE(t-Distributed Stochastic Neighbor Embedding)相关推荐

  1. 在线作图丨数据降维方法③——正交偏最小二乘方判别分析(OPLS-DA)

    ​Question1:什么是PLS-DA? 与PCA不同,PLS是"有监督"模式的偏最小二乘法分析,也就是在分析数据时,已知样本的分组关系,这样可以更好的选择区分各组的特征变量,确 ...

  2. 在线作图丨数据降维方法①——主成分分析PCA

    PCA是什么? 主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度, ...

  3. 在线作图丨数据降维方法②——主坐标分析PCoA

    什么是PCoA? 主坐标分析(principal co-ordinates analysis,PCoA)呈现研究数据相似性或差异性的可视化坐标,是一种非约束性的数据降维分析方法,可用来研究样本群落组成 ...

  4. 在线作图丨数据降维方法⑥——消除趋势对应分析(Detrended correspondence analysis, DCA)

    Question 1: What is DCA? 想要理解DCA(Detrended correspondence analysis, 消除趋势对应分析),首先要理解CA(Correspondence ...

  5. 在线作图丨绘制一个含饼图的组内网络分析图(Network Analysis)

    前几期小编给大家介绍了如何做一个组间网络分析图(Network Analysis) 在线作图丨绘制组间网络分析(Network Analysis),有小伙伴希望小编更新一期组内互作网络的说明.所以,它 ...

  6. pca 累积方差贡献率公式_机器学习数据降维方法:PCA主成分分析

    PCA在机器学习中很常用,是一种无参数的数据降维方法.PCA步骤: 将原始数据按列组成n行m列矩阵X 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 求出协方差矩阵 求出协方差矩阵的 ...

  7. python降维方法_机器学习数据降维方法总结(附python代码)

    介绍 在机器学习实战时,如果面对一个数据集具有上千个特征,那么对于模型训练将是一个巨大的挑战.面对如此多的数据变量,如果我们认真的去分析每一个变量将耗费我们几周甚至几个月的时间,那么你估计也要被开除了 ...

  8. 在线作图丨如何画一个优美的相关性热图

    相关性热图 相关性分析是通过计算两种因子之间的相关性(Spearman.Pearson.Kendall's Tau系数等),将获得的数值矩阵通过热图直观展示.通过颜色变化反映二维矩阵或表格中的数据信息 ...

  9. 【深度学习】数据降维方法总结

    引言: 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中.降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达 ...

最新文章

  1. 使用vue2.0 vue-router vuex 模拟ios7操作
  2. word2vec中文类似词计算和聚类的使用说明及c语言源代码
  3. 湖南计算机股份有限公司hcc-pr2e,PC台式机电脑如何连接使用HCC PR2E/K10打印机
  4. pycharm和mysql_数据库 mysql 和 pycharm交互
  5. java的Timer定时器
  6. 用拉普拉斯变换求零状态响应_什么是UPS?为什么用UPS?关于UPS电源的知识都在这里!...
  7. oracle中对表进行分组,Oracle第五章多表链接、第六章分组函数习题整理
  8. 使用PE安装纯净版win7
  9. linux 内核配置ip地址,linux内核IP地址转换函数
  10. 【C】狐狸找兔子问题
  11. 随机从map中获取key值
  12. 2019年Robomaster江苏省赛总结
  13. java毕业生设计新能源汽车租赁管理系统计算机源码+系统+mysql+调试部署+lw
  14. Arcgis小技巧【1】——地理配准
  15. 题目:输入一个整数a,其个位为第一位,十位为第二位,依次类推,计算a的偶数位的和奇数位的和。
  16. 黑客安全专家郭盛华:逃避僵尸网络恶意软件攻击的13种方法
  17. 明了的 —— Mysql 多表连接查询
  18. 硅谷送货机器人:脚下的路不好走
  19. 蜜趣疑似机器人_《凤囚凰》关晓彤宋威龙同房再添蜜趣
  20. 可以提高效率优化界面的WebStorm插件完整版在此

热门文章

  1. 写给那些想升职管理层的同学
  2. AI 时代,还不了解大数据?
  3. 面试热点|理解TCP/IP传输层拥塞控制算法
  4. 一文搞定cookie,session,token
  5. 阿里某员工论坛炫耀:感谢公司让毕业不到两年的我年入百万
  6. 在互联网圈混,怎么能不知道这9个Java方向公众号
  7. 系列文章|OKR与敏捷(一):瀑布式目标与敏捷的冲突
  8. 军工企业敏捷项目管理
  9. OKR会议的7个步骤
  10. 网络负载均衡相关技术-服务器负载