关键词:
随机一致性
特征值分解
PCA
MDS
分类
摘要:
在机器学习领域中,样本随机性及随机一致性现象广泛存在于分类、聚类等任务中。本文发现当样本有限时,由于样本随机性的存在,样本协方差矩阵的特征值分解可能会存在随机一致性,使用样本特征值与特征向量来估计总体特征值与特征向量时会存在误差。为了提高模型的估计准确度和算法的稳定性,本文从随机一致性角度考虑协方差矩阵的特征值与特征向量的估计问题。
目前,研究者已经提出大量的改进降维方法,例如稀疏PCA、TSNE、核PCA、核LDA等聚焦于不同问题的变体。本文重点关注主成分分析方法(PCA)和多维缩放方法(MDS)方法,两者的共同点是在计算过程中涉及协方差矩阵特征值分解问题,由于随机一致性的存在,从而导致特征值分解产生误差,影响模型性能和后续任务的精度。因此本文针对传统PCA和MDS方法的特征值分解存在的随机一致性问题,深入研究了特征值和特征向量的估计问题,从随机一致性角度设计了EPCA和EMDS两个降维方法。
主要研究工作如下:
(1)缓解主成分分析中的随机一致性。为了缓解PCA方法中特征值分解结果误差及误差的积累。本文聚焦于研究PCA特征值分解中的随机一致性问题。与先前工作不同,本文从随机一致性角度分析特征值分解过程,并利用平均思想提出新的改进PCA方法(EPCA),为了更好的拟合数据真实分布,需要对数据进行均匀采样,使有限样本点在参数空间内均匀分布以提高优化的全局性。根据如上思路,本文不仅可以提高PCA降维算法的稳定性和鲁棒性,而且还从一种新颖的视角来解释特征值分解的结果。更重要的是,在后续分类任务中,该方法使得模型性能明显提升,在图像压缩应用领域也略有成效。
(2)缓解多维缩放方法中的随机一致性。首先本文通过分析MDS方法发现,其涉及内积矩阵B的特征值分解,结果也可能具有随机一致性,使得最后变换得到的样本低维坐标可能会存在误差,从而导致模型性能下降等问题。然后提出缓解随机一致性的改进MDS方法(EMDS)。实验结果表明,相比于原始MDS方法,EMDS降维后的数据具有更高的分类准确率。
综上所述,本文针对传统的PCA和MDS两个降维方法,特征值分解存在误差问题,从随机一致性角度出发,提出缓解随机一致性的EPCA和EMDS方法,并在UCI传统数据集上验证了所提出方法的性能。本文的研究为涉及特征值分解的方法提供了新的视角与思路,在改进降维方法及特征值分解方面有一定的理论与应用价值,并在相关理论方面理清了思路,以及设想。