背景
高光谱遥感可获得窄波段的连续光谱信息,可提供大量关于作物理化参数的丰富信息。但是使用全波段作为输入变量会带来较大的噪声和冗余信息,同时必然会增加数据处理负荷、仪器成本和应用的复杂性。因此现有研究中通常选择一小组传达数据主要信息的敏感特征来反演作物目标参数。
目前,协同区间偏最小二乘(sipls)或连续投影算法(spa)已被成功应用于优特征的选择。sipls可以保证所选波长的连续性,使模型性能稳定。然而,研究中发现sipls选择的区间位置和长度都是固定的,这表明优选特征中存在无用信息和共线性。而spa是建立在凸几何端元搜索算法上的。因此,该方法可以降低对离群像素的敏感性,并生成真实的端元。同时,spa的目标是在所有数据中选择共线性最小的变量,这比其他算法提供的结果更具可重复性,但其所选择的变量也可能存在信噪比低或共线性较小的现象。
为了克服这些缺点并促进高光谱数据的特征选择,本研究提出了一种新的混合的特征选择方法,命名为sipls-spa,并将选取的优光谱特征用于建立更准确、稳定的小麦叶片生物量监测模型。
试验设计
南京农业大学姚霞教授团队利用江苏双利合谱公司的可见/近红外高光谱成像系统gaiafield-v10e,获取了小麦不同生育期的冠层高光谱影像,并对影像进行预处理从而获得平均光谱(图1)。
图1 小麦冠层高光谱影像预处理流程
利用sipls-spa进行特征优选的主要步骤:(1)全波段(400-1000 nm)被分成p个区间(25-50);(2)结合q(q = 2,3,4)与相应叶片生物量建立plsr模型;(3)重复步骤(1)和(2),选择使plsr模型的rmse最小时的p和q的值;(4)根据确定的p和q,得到敏感特征的光谱矩阵,设为x(n*j,n为样本数,j为光谱变量数);(5)随机选取一列为xj,其余定义为s;(6)分别计算xj对s的投影。s的最大投影表示最小相关性,其对应的列定义为xi;(7)设置xi而不是xj,并重复步骤(5)和(6),直到所选变量的数量达到预设值m。m的值是通过多次数据计算确定的。在本研究中,m = 20;(8)将选择的变量与相应生物量拟合多元线性回归(mlr)模型。最后,选择使mlr的rmse最小的变量。
结论
通过步骤(1)-(4),成功获得了每个plsr模型的rmsecv。结果表明,在p = 37和q = 4条件下获得了rmsecv z低的最佳plsr模型(图2)。这意味着当整个光谱区域平均划分为37个区间时,用4个区间(22、24、30和37)构建的plsr模型表现最好。运行步骤(5)-(8),确定最佳高光谱变量为706、724、734、806、808、810、812和816 nm。
图2 不同p和q值下sipls模型的rmsecv
利用sipls-spa选择的输入变量,建立了小麦叶片生物量在五个生长阶段的校准模型(图3)。
图3 sipls-spa在校准(a)和验证(b)中估算的小麦叶片生物量的实测值与预测值之间的1:1拟合关系
通过对比sipls、spa和sipls-spa选择的敏感特征(表1)。结果表明,sipls对小麦叶片生物量的敏感特征分别为694-706、722-734、806-816和890-900 nm,而spa的敏感特征分别为726、744、758、816和830 nm。简而言之,sipls选择的敏感特征比spa和sipls-spa多。以spa、sipls和spa-sipls选择的敏感特征为输入变量,构建小麦叶片生物量plsr模型。结果表明,sipls模型和全波段模型的rc2最大(0.84),其次是spa模型和sipls-spa模型。而采用sipls-spa模型得到的rv2最大(rv2= 0.67),采用sipls模型得到的rv2最小。利用sipls-spa选择的敏感特征建立的模型rmsev最小(0.059 kg/m2),rrmsev最小(38.55%)。
使用三个指标对plsr模型的实用性进行评价(表2)。结果表明,spa模型运行时间最短,其次是sipls-spa模型,而全波段模型运行时间最长。spa模型和sipls-spa模型的矩阵复杂度和计算复杂度相似且较低,但全波段模型的矩阵复杂度和计算复杂度最高。
表1 sipls、spa和sipls-spa选择的敏感特征
表2 利用sipls、spa和sipls-spa方法提取敏感变量建立plsr模型的实用性
作者信息
姚霞,博士,南京农业大学国家信息农业工程技术中心教授,博士生导师。
主要研究方向:基于高光谱/日光诱导叶绿素荧光/激光雷达的星-机-地作物生长监测;作物表型高通量获取等。
参考文献:
jia, m., li, w., wang, k., zhou, c., cheng, t., tian, y., zhu, y., cao, w., & yao, x. (2019). a newly developed method to extract the optimal hyperspectral feature for monitoring leaf biomass in wheat. computers and electronics in agriculture, 165.