聚类分析方法包括:pca 主成分分析、loading 分析、lda 线性判别分析。
主成分分析法(pca)是将原始数据(十个传感器的输出)通过算法降维成两个新的指标主成分1(pc1)和主成分2(pc2)(二者没有信息交叉,且指标无量纲),在图形上显示分别为x 轴和y 轴,性质相似的样品,经过降维转换后,距离上会很靠近,因此,可以用输出的图形来判断组间的不同和比较组内样品的差异。通过pca 可以使所有样品差异z大化,用x 轴和y 轴来表示的图形位置是新变量pc1 和pc2 的数值,值越高意味着,包含主要原始信息的量越大,如果两个变量的总方差贡献率不低于95%,基本上可以包含样品的所有原始信息。
在文本窗口里,包含了模型文件和样品以及样品间的区分度,数值越接近于1,区分得越显著。
该图显示的是枣花的loading 分析图,从图中可以看出7 号传感器w1w 对di一主成分贡献率大,同理6 号传感器w1s 对第二主成分贡献率大。loading 分析的算法与pca 的算法相同,有很好的相关性,不同的是,pca 是对样品的分析,loading 分析是对传感器的分析,可以分析出传感器区分样品的能力。
分析结果时,具有以下规则:
(1)传感器在loading 分析中所在的方向与pca 方向一致。在同一轴方向的传感器可以用pca 思维来分析。数值在轴上较大的传感器对于区分是有作用的。
(2)位于图*(0,0)附近的传感器在pca 结构中对于样品的区分作用较小。在当前的模板文件中,loading分析有利于识别对区分有用的传感器。只要他们对区分过程有负面影响,单一传感器就可以识别区分从而关闭分析。
lda 线性判别分析是区分-应用-分析的di一个步骤。lda 计算出识别结果并且类似于pca-----显示培训数据设置的二维图。在pca 和lda 的区别是:lda 算法利用模型每组的信息,兼顾了组内分布和它们间的距离。因此,lda 收集了所有传感器的信息尽力提高组间的差异,而pca 不考虑组间的差异,尽可能使每个数据点进行z大化地区分。
重要性:dfa/lda 与pca 相比,需要更多的数据。我们推荐数据点至少是所使用传感器数量的6 倍(如10 传感器就应该对应于至少60 个独立数据点)。