线性判别分析(LDA)降维 - 好文

一、什么是线性判别分析？

线性判别分析(Linear discriminant
Analysis，LDA)与PCA类似也是一种特征抽取的算法，它能够提高数据分析过程中的计算效率。PCA是寻找数据集中方差最大的方向作为主成分分量的轴，而LDA是最优化分类的特征子空间。LDA和PCA都是用来降低数据维度的线性转换技巧。PCA属于无监督算法，LDA属于监督算法。相对于PCA算法而言，LDA更适合对于分类特征的提取。

上图中，叉叉表示类别1，实心圆表示类别2，LD1表示x轴，LD2表示y轴。其中，类别1和类别2都满足正态分布，我们对类别1和类别2分布在x轴和y轴上进行投影，在x轴方向上，通过线性判定，我们可以将类别1和类别2区分开，所以它是一个好的线性判定。而y轴方向的线性判定保持了数据集的较大方差，而无法将类别1和类别2进行区分，所以它不是一个好的线性判定。

二、如何来做线性判别分析？

在使用线性判别分析之前，还需要满足几个假设条件。第一个假设是数据需要满足正态分布，第二个就是各个类别数据具有相同的协方差矩阵，且样本的特征是相互独立的。即使没有满足这些条件，LDA还是可以很好的工作，LDA一共包含了6个步骤：

1、标准化处理
import pandas as pd from sklearn.preprocessing import StandardScaler from
sklearn.model_selection import train_test_split if __name__ == "__main__": #
获取葡萄酒的数据 data = pd.read_csv("G:/dataset/wine.csv") # 将数据分为x和y x,y =
data.ix[:,1:],data.ix[:,0] # 将数据分为训练集和测试集 train_x,test_x,train_y,test_y =
train_test_split(x,y,test_size=0.3,random_state=1) #对数据进行标准化处理 std =
StandardScaler() train_x_std = std.fit_transform(train_x) test_x_std =
std.fit_transform(test_x)
2、计算每一类别特征的均值向量
#用来存放不同类别特征的平均值向量 mean_vecs = [] #葡萄酒数据集一共有3个类别1,2,3 for label in range(1,4):
mean_vecs.append(np.mean(train_x_std[label==train_y],axis=0))

3、计算类间散布矩阵S(B)和类内散布矩阵S(W)

a、计算类内散布矩阵S(W)
#定义每行数据的大小，每条数据有13个特征 d = 13 #定义类内散布矩阵 S_W = np.zeros((d,d)) # 计算类内的散布矩阵 for
label, mv in zip(range(1, 4), mean_vecs): class_scatter = np.zeros((d, d)) #
计算各个类别的散布矩阵 for row in train_x_std[train_y == label]: row, mv = row.reshape(d,
1), mv.reshape(d, 1) class_scatter += (row - mv).dot((row - mv).T) S_W +=
class_scatter # print(np.bincount(train_y)[1:])
在使用累加的方式来计算散布矩阵的时候，需要满足训练集的不同类别的类标分布式均匀的，下面我们查看不同类别的类标分布情况
print(np.bincount(train_y)[1:])#[40 49 35]

所以，我们需要对不同类别的散布矩阵S(i)做缩放处理，对各个类别的散布矩阵除以该类别内样本数量N(i)，发现计算散布矩阵的方式与计算协方差矩阵的方式是一样的，协方差矩阵可以看作是归一化的散布矩阵

#计算类内的散布矩阵 for label,mv in zip(range(1,4),mean_vecs): class_scatter =
np.cov(train_x_std[train_y == label].T) S_W += class_scatter
b、计算类间散布矩阵S(B)

#计算全局均值m mean_overall = np.mean(train_x_std,axis=0) S_B = np.zeros((d,d)) for
i,mean_vec in enumerate(mean_vecs): N = train_x_std[train_y == i+1,:].shape[0]
mean_vec = mean_vec.reshape(d,1) mean_overall = mean_overall.reshape(d,1) S_B
+= N * (mean_vec - mean_overall).dot((mean_vec - mean_overall).T)
4、计算矩阵S(W)^(-1)S(B)的特征值和对应的特征向量
#获取特征值和对应的特征向量 eigen_vals,eigen_vecs =
np.linalg.eig(np.linalg.inv(S_W).dot(S_B)) #获取特征对，并根据特征值的大小进行排序 eigen_pairs =
[(np.abs(eigen_vals[i]),eigen_vecs[:,i]) for i in range(len(eigen_vals))]
eigen_pairs = sorted(eigen_pairs,key=lambda k : k[0],reverse=True) for eigen in
eigen_pairs: print(eigen[0])

5、选取前k个特征和对应的特征向量，构造一个d×k维的转换矩阵W，其中特征向量以列的形式排列

下面我们通过图像来判断，特征向量的个数对于不同类别的区分能力
#计算所有特征值的和 tot = sum(eigen_vals.real) #获取特征值占总特征值的比率 discr = [(i / tot) for i
in sorted(eigen_vals.real,reverse=True)] cum_discr = np.cumsum(discr)
plt.bar(range(1,14),discr,alpha=0.5,align="center",label="单个特征区分")
plt.step(range(1,14),cum_discr,where="mid",label="累计区分")
plt.xlabel("线性判别(LDA)") plt.ylabel("区分率") plt.ylim([-0.1,1.1])
plt.legend(loc="best") plt.show()

通过上面的特征值和图可以发现，只存在两个特征值不为0(其余的特征值接近于0)，前两个特征值累计已经接近于100%，所以我们选取前两个特征向量来构造转换矩阵W。

W = np.hstack((eigen_pairs[0][1][:,np.newaxis].real,
eigen_pairs[1][1][:,np.newaxis].real)) print(W)

6、将训练样本通过转换矩阵W映射到新的特征空间
#将样本映射到新的特征子空间 train_x_std_lda = train_x_std.dot(W) colors = ["r","b","g"]
markers = ["s","x","o"] for l,c,m in zip(np.unique(train_y),colors,markers):
plt.scatter(train_x_std_lda[train_y == l,0],train_x_std_lda[train_y == l,1],
c=c, label=l,marker=m) plt.xlabel("LD1") plt.ylabel("LD2")
plt.legend(loc="upper right") plt.show()

三、使用scikit-learn来实现LDA分析
import pandas as pd import numpy as np from sklearn.preprocessing import
StandardScaler from sklearn.model_selection import train_test_split import
matplotlib.pyplot as plt from sklearn.discriminant_analysis import
LinearDiscriminantAnalysis from sklearn.linear_model import LogisticRegression
if __name__ == "__main__": # 获取葡萄酒的数据 data = pd.read_csv("G:/dataset/wine.csv")
# 将数据分为x和y x, y = data.ix[:, 1:], data.ix[:, 0] # 将数据分为训练集和测试集 train_x, test_x,
train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=0) #
对数据进行标准化处理 std = StandardScaler() train_x_std = std.fit_transform(train_x)
test_x_std = std.fit_transform(test_x) #设置LDA的维度 lda =
LinearDiscriminantAnalysis(n_components=2) #将X通过LDA进行转换 train_x_std_lda =
lda.fit_transform(train_x_std,train_y) test_x_std_lda =
lda.fit_transform(test_x_std,test_y) logistic = LogisticRegression()
logistic.fit(train_x_std_lda,train_y)
print("训练集上的准确率：",logistic.score(train_x_std_lda,train_y))
print("测试集上的准确率：",logistic.score(test_x_std_lda,test_y))训练集上的准确率：
0.991935483871 测试集上的准确率： 1.0

热门工具换一换