之前无标签数据降维PCA,那么像下图带有标签数据,如果用PCA降维将会投影到v轴上,这个投影方差最大,数据将变成不可分状态,LDA将把数据投影加上已有分类这个变量,将数据投影到u轴上

假设原数据分成n类,用矩阵Di表示i类数据,均值向量mi,将设将数据投影到向量w上后,均值分别为Mi,向量w模长为1,则有

矩阵Di投影后类方差为

我们希望

尽可能大,这样数据才能保留之前的分类特性,问题转化为求

的最大值

对J求导

J最大值应该是矩阵

的最大特征值

例子

from numpy.random import random_sample

import numpy as np

# fig = plt.figure()

N = 600

# 设椭圆中心center

cx = 5

cy = 6

a = 1/8.0

b = 4

X,scale = 2*a*random_sample((N,))+cx-a,60

Y = [2*b*np.sqrt(1.0-((xi-cx)/a)**2)*random_sample()+cy-b*np.sqrt(1.0-((xi-cx)/a)**2) for xi in X]

colors = ['green', 'green']*150

fig, ax = plt.subplots()

fig.set_size_inches(4, 6)

ax.scatter(X, Y,c = "none",s=scale,alpha=1, edgecolors=['green']*N)

X1,scale = 2*a*random_sample((N,))+cx-a,60

Y1 = [2*b*np.sqrt(1.0-((xi-cx)/a)**2)*random_sample()+cy-b*np.sqrt(1.0-((xi-cx)/a)**2) for xi in X1]

ax.scatter(X1+0.3, Y1,c = "none",s=scale,alpha=1, edgecolors=['red']*N)

plt.savefig('lda.png')

plt.show()

自己实现

D1 = np.array([X, Y])

D2 = np.array([X1+0.3, Y1])

m1 = np.mean(D1, axis=1)

m1 = m1[None,]

print m1

m2 = np.mean(D2, axis=1)

m2 = m2[None,]

print m2

SA = np.dot((m1-m2).T,(m1-m2))

S1 = np.dot(D1-m1.T,(D1-m1.T).T)

print S1

S2 = np.dot(D2-m2.T,(D2-m2.T).T)

SB = S1+S2

S = np.dot(np.linalg.inv(SB), SA)

evalue, evec = np.linalg.eig(S)

data1 = np.dot(evec[:,0], D1)

plt.scatter(data1, [0]*data1.size,c = 'g',s=scale,alpha=1, edgecolors=['none']*N)

data2 = np.dot(evec[:,0], D2)

plt.scatter(data2, [0]*data2.size,c = 'r',s=scale,alpha=1, edgecolors=['none']*N)

plt.show()

调用sklearn

from sklearn.lda import LDA

lda = LDA(n_components=1)

X3 = np.column_stack((D1,D2))

print X3.shape

Y = np.ones(X3.shape[1])

print Y.shape

Y[0:N/2]=0

X_trainn_lda = lda.fit_transform(X3.T, Y.T)

print X_trainn_lda.shape

xy = X_trainn_lda.size

plt.scatter(X_trainn_lda, [0]*xy,c = (['g']*(xy/2)+['r']*(xy/2)),s=scale,alpha=1, edgecolors=['none']*N)

plt.show()

完美投影成两个线段,

多个分组情况

下图是由一个三维空间的三组数据,降维到二维的投影

不再是一个向量,而是一个矩阵形式,

分子分母需要重新刻画,多维数据离散程度用协方差来刻画,分子可以用每组均值数据的协方差来表示

最后是两个矩阵的比值,这个没有具体的意义,pca知变换后特征值大小代表在该特征向量下投影的离散程度,而特征值的乘积=矩阵行列式,那么

例子

import scipy.io as sio

from mpl_toolkits.mplot3d import Axes3D

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

from numpy.random import random_sample

import numpy as np

ax=plt.subplot(111,projection='3d') #创建一个三维的绘图工程

N = 200

scale = 60

# 设椭球中心center

cx = 2

cy = 2

cz = 2

a = 1.0

b = 1.5

c = 4.0

def plot(cx,cy,cz, a,b,c,N, color):

X,scale = 2*a*random_sample((N,))+cx-a,60

Y = [b*np.sqrt(1.0-((xi-cx)/a)**2)*(2*random_sample()-1)+cy for xi in X]

Z = [c*np.sqrt(1-((xi-cx)/a)**2-((yi-cy)/b)**2)*(2*random_sample()-1)+cz for xi, yi in zip(X,Y)]

ax.scatter(X, Y, Z,c = color,s=scale,alpha=1, edgecolors=['none']*N)

lr = np.array((X,Y,Z))

return lr

data1 = plot(cx,cy,cz,a,b,c,N, 'b')

data2 = plot(cx+3,cy,cz,a,b,c,N,'r')

data3 = plot(cx,cy+4,cz,a,b,c,N,'g')

data = np.hstack((data1,data2,data3))

print data.shape

pca = PCA(n_components=2)

X_train_pca = pca.fit_transform(data)

print X_train_pca.shape

train = np.dot(X_train_pca.T, data)

ax.set_xlim([0,5])

ax.set_ylim([0,5])

ax.set_zlim([0,5])

ax.set_xlabel("X")

ax.set_ylabel("Y")

ax.set_zlabel("Z")

plt.show()

生成三个椭球,数据点红、绿、蓝三组

PCA降维后数据

plt.scatter(train[0,:], train[1,:],c = (['r']*N+['g']*N+['b']*N),s=scale,alpha=1, edgecolors=['none']*N)

plt.show()

LDA降维后数据

m1 = np.mean(data1, axis=1)[None,].T

m2 = np.mean(data2, axis=1)[None,].T

m3 = np.mean(data3, axis=1)[None,].T

print m1.shape

m = np.hstack((m1,m2,m3))

mTotal = np.mean(data, axis=1)[None,].T

SA = np.dot(m-mTotal, (m-mTotal).T)

SB = np.dot(data1-m1, (data1-m1).T)+np.dot(data2-m2, (data2-m2).T)+np.dot(data3-m3, (data3-m3).T)

S = np.dot(np.linalg.inv(SB), SA)

evalue, evec = np.linalg.eig(S)

myTrain =np.dot(evec, data)

plt.scatter(myTrain[0,:], myTrain[1,:],c = (['r']*N+['g']*N+['b']*N),s=scale,alpha=1, edgecolors=['none']*N)

plt.show()

调用sklearn

from sklearn.lda import LDA

lda = LDA(n_components=2)

y_train =[0]*N+[1]*N+[2]*N

y_train = np.array(y_train)

X_train_lda = lda.fit_transform(data.T, y_train.T)

print X_train_lda.shape

plt.scatter(X_train_lda.T[0,:], X_train_lda.T[1,:],c = (['r']*N+['g']*N+['b']*N),s=scale,alpha=1, edgecolors=['none']*N)

plt.show()

注意 矩阵并不一定可逆,可以先进行pca降维,再LDA

matlab lda数据降维,LDA有标签数据降维相关推荐

  1. ICCV 2019 | 爱奇艺提出半监督损失函数,利用无标签数据优化人脸识别模型

    点击我爱计算机视觉标星,更快获取CVML新技术 论文发表于ICCV 2019 作者 | 爱奇艺技术产品团队 编辑 | 唐里 论文标题:Unknown Identity Rejection Loss: ...

  2. 数据中台 第7章 数据体系建设:数仓分层设计、数据建模

    数据中台数据体系是在全域原始数据的基础上,进行标准定义及分层建模,数据体系建设最终呈现的结果是一套完整.规范.准确的数据体系,可以方便支撑数据应用. 中台数据体系应具备以下特征: ·覆盖全域数据:数据 ...

  3. power bi报表html,Power BI -- 第二篇:Power BI数据可视化之基于Web数据的报表制作(经典级示例)...

    http://www.cnblogs.com/muchen/p/5391101.html 阅读目录 •前言 •Power BI的三大工作区 •导入数据 •数据塑形 - 工作区介绍 •数据塑形 - 工作 ...

  4. python 降维lda算法的使用_【Python】降维算法PCA和LDA的实现及总结

    以Iris数据集为例,分别实现PCA和LDA降维 算法原理 主成分分析(Principal Component Analysis,PCA)是一种常用的线性降维数据分析方法,其实质是在能尽可能好的代表原 ...

  5. python降维之时间类型数据的处理_python数据预处理方式 :数据降维

    数据为何要降维 数据降维可以降低模型的计算量并减少模型运行时间.降低噪音变量信息对于模型结果的影响.便于通过可视化方式展示归约后的维度信息并减少数据存储空间.因此,大多数情况下,当我们面临高维数据时, ...

  6. python降维之时间类型数据的处理_使用Python进行数据降维|线性降维

    前言 为什么要进行数据降维?直观地好处是维度降低了,便于计算和可视化,其深层次的意义在于有效信息的提取综合及无用信息的摈弃,并且数据降维保留了原始数据的信息,我们就可以用降维的数据进行机器学习模型的训 ...

  7. 推荐系统实践读书笔记-04利用用户标签数据

    推荐系统实践读书笔记-04利用用户标签数据 推荐系统的目的是联系用户的兴趣和物品,这种联系需要依赖不同的媒介.GroupLens在一篇文章中表示目前流行的推荐系统基本上通过3种方式联系用户兴趣和物品. ...

  8. 12- 降维算法 (PCA降维/LDA分类/NMF) (数据处理)

    数据降维就是一种对高维度特征数据预处理方法.降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的. PCA算法有两种实现方法: 基于特征值分解协方差矩阵实 ...

  9. 10 降维算法(PCA降维/LDA分类/NMF非负矩阵)

    数据降维简介 降维就是一种对高维度特征数据预处理方法.降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的. 降维具有如下一些优点: 减少所需的存储空间. ...

最新文章

  1. bzoj1562[NOI2009]变换序列——2016——3——12
  2. MySQL GROUP BY
  3. Socket经验记录
  4. python中的方法和函数的区别_python中函数与方法的区别?
  5. 一个很艰难的 Java 核心面试问题!
  6. js获取当前日期方法
  7. C#期中考试题人事系统篇
  8. freeswitch 安装 fail2ban 动态拦截IP攻击
  9. JAVA高级架构师视频课程
  10. laravel-mix打包 js css
  11. 某公司的雇员分为以下若干类: Employee:这是所有员工总的父类.属性:员工的姓名,员工的生日月份。 方法:getSalary(intmonth)
  12. 51小项目——使用proteus搭建简易的光照度计-(1)
  13. 解决Angular里的报错:ERROR Error: Uncaught (in promise): NullInjectorError: R3InjectorError()
  14. 看我小穷仔和富家MM的经典图聊!!
  15. 卷积层网络CNN初学笔记(简单代码)
  16. 计算机屏幕自己动,电脑显示器老是自动调整怎么办
  17. 手工清除AUTO病毒
  18. [CSS]图片展示效果
  19. Submarine:在 Apache Hadoop 中运行深度学习框架
  20. [Linux] expect用法举例

热门文章

  1. 临近年末,外贸业务员如何催单
  2. 【Unity-学习-004】如何制作 鬼泣5 中主角和摄像机的移动、旋转方式
  3. 【面试题总结】分布式锦集
  4. java中怎么写一个返回按钮_java – 在表中实现一个按钮,该按钮使用Thymeleaf和Spring Boot从表中返回数据...
  5. python根据字节长度截取字符串_python 字节流 按长度截取
  6. 打印部复印社快印图文网站织梦模板
  7. C++常用函数之sort函数
  8. 三角形面积的计算公式?
  9. Umi v3 Ant Design Pro v5 从零开始实战视频教程(34 个视频)
  10. BMN:Boundary-matching network for temporal action proposal generation