导航:首页 > 去中心化 > pca去中心化

pca去中心化

发布时间:2021-06-15 16:50:10

『壹』 数据降维特征值为负需要舍去数据嘛

经过这几天面试后,我发现数据降维这一块在工业界用的很多或者说必不可少,因此,这方面需要重点关注。今天,我将数据降维总结于此,包括他人成果,这里对他们的内容表示感谢。

Method
对数据降维作用有多个角度的理解。吴恩达在他的视频中说,降维是用于数据压缩,降低噪声,防止运行太慢内存太小;当降到2或3维可以可视化操作,便于数据分析;不要将降维用于防止过拟合,容易去掉和标签有关的重要特征。但是数据为何需要压缩,除了占用内存以外还有没有别的原因——“维度灾难”问题:维度越高,你的数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。最后导致的可能是每个样本都有自己的特征,无法形成区别是正例还是负例的统一特征。还有另外一个情况当特征多于样本量时,一些分类算法(SVM)是失效的,这与分类算法原理有关。

数据降维方法:


线性降维方法:
主成分分析(PCA)和判别分析方法(LDA)
关于PCA的理解:
1、PCA可以理解为高维数据投影到低维,并使得投影误差最小。是一种无监督将为方法。
2、还可以理解为对坐标旋转和平移(对应着坐标变换和去中心化),从而使得n维空间能在n-1维分析,同时去掉方差小的特征(方差小,不确定度小,信息量小)
3、PCA的推导
4、PCA与SVD的联系
(从矩阵分解角度理解PCA)
5、PCA降维的应用
6、PCA 的缺点:
(1)pca是线性降维方法,有时候数据之间的非线性关系是很重要的,这时候我们用pca会得到很差的结果。所有接下来我们引入核方法的pca。
(2)主成分分析法只在样本点服从高斯分布的时候比较有效。
(3) 存在不平衡数据的降维可以采用代价敏感PCA(CSPCA)
(4)特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声,但实际上,向小一点的特征根方向投影也有可能包括我们感兴趣的数据;
(5)特征向量的方向是互相正交(orthogonal)的,这种正交性使得PCA容易受到Outlier的影响
(6)难于解释结果。例如在建立线性回归模型(Linear Regression Model)分析因变量

『贰』 数据旋转后pca的主成分方向变了吗

获取n行m列原始数据,写成n*m的矩阵形式;
数据中心化。
即把每个属性的均值处理设为0(下面木羊将给出自己编写的源代码,木羊的数据用列代表属性,在该步骤中,就把每列的均值都设置为0)。
根据中心化后的矩阵求协方差矩阵。
协方差有三种值,0表示属性之间相互独立,没有影响;
正值表示属性是正相关的关系,若属性A和属性B是正相关关系,则A增加B也增加,A减小B也减小;
负值表示属性是负相关的关系,若属性C和属性D是负相关关系,则C增加D减小,C减小D增加。
所以,协方差矩阵也可以理解为相关系数矩阵,表示属性间的相关程度。
根据协方差矩阵求特征值矩阵。
特征值矩阵只有对角线上的元素有值,上三角和下三角元素都为0.
根据特征值矩阵求对应的特征向量。
对特征值矩阵进行排序,并设定一个阈值,若前i个特征矩阵的和>=设定的阈值,则就有i个主成分,取其对应的特征向量,定为主成分向量矩阵。
原始矩阵乘以转置后的主成分向量即得降维后的矩阵。
比如,原始数据是150*4的矩阵,在步骤6中取得了2个主成分,那么主成分矩阵就是2*4的矩阵。
150*4的矩阵乘以4*2的矩阵,即得150*2的矩阵,体现了降维效果。
(选取这个属性较少的数据集是为了方便初学者的理解,在实际工程中,的属性值往往不止4个,但降维方法都一样的。

『叁』 主成分分析PCA算法:为什么要对数据矩阵进行均值化

个人觉得
去均值化是为了方面后面的协方差,去均值化后各维度均值为零,
协方差中的均值也就是零了,方便求解。
具体,假设矩阵A去中心化后得到B,那么B的协方差就是B*B的转置

『肆』 PCA分析中,主成分PC1PC2的值是怎么算出来的

个人觉得 去均值化是为了方面后面的协方差,去均值化后各维度均值为零,
协方差中的均值也就是零了,方便求解。

具体,假设矩阵A去中心化后得到B,那么B的协方差就是B*B的转置

『伍』 matlab中pca

1,4 matlab是有帮助文档的,我没有明白你所指的去中心化处理是什么,PCA的结果在数组自己的维度。
以下是帮助文档,请仔细阅读
coeff = pca(X) returns the principal component coefficients, also known as loadings, for the n-by-p data matrix X. Rows of X correspond to observations and columns correspond to variables. The coefficient matrix is p-by-p. Each column of coeffcontains coefficients for one principal component, and the columns are in descending order of component variance. By default, pca centers the data and uses the singular value decomposition (SVD) algorithm.
example
coeff = pca(X,Name,Value) returns any of the output arguments in the previous syntaxes using additional options for computation and handling of special data types, specified by one or more Name,Value pair arguments.
For example, you can specify the number of principal components pca returns or an algorithm other than SVD to use.
example
[coeff,score,latent] = pca(___) also returns the principal component scores in score and the principal component variances in latent. You can use any of the input arguments in the previous syntaxes.
Principal component scores are the representations of X in the principal component space. Rows of score correspond to observations, and columns correspond to components.
The principal component variances are the eigenvalues of the covariance matrix of X.
example
[coeff,score,latent,tsquared] = pca(___) also returns the Hotelling's T-squared statistic for each observation in X.
example
[coeff,score,latent,tsquared,explained,mu] = pca(___) also returns explained, the percentage of the total variance explained by each principal component and mu, the estimated mean of each variable in X.
2. PCA 和SVD的不同是,他们分解矩阵的方式是不同的。我建议你翻看wikipedia里面SVD和PCA的说明,里面公式很清晰了

阅读全文

与pca去中心化相关的资料

热点内容
x17算法矿机 浏览:437
矿提升机操作规程 浏览:964
利用比特币可以干什么 浏览:968
蚂蚁矿机sanre 浏览:355
偷渡到仙界挖矿 浏览:996
3070挖矿知乎 浏览:941
sac数字货币价格 浏览:389
新加坡lse智慧云数字货币众筹交易平台 浏览:400
基于区块链的网络舆情传播机制研究 浏览:801
比特币是挖出来就成型的吗 浏览:872
蚂蚁矿机m1 浏览:205
比特币合约多长时间 浏览:188
中国可以用比特币买特斯拉么 浏览:12
上海元素金服比特币 浏览:248
比特币本钱多少能到百万 浏览:104
为什么说以太坊会取代比特币 浏览:735
挖比特币能赚大钱吗 浏览:561
挖矿工人退休好吗 浏览:450
以太坊算力多久变一次 浏览:737
2017数字货币牛市 浏览:9