您好,欢迎进江苏双利合谱科技有限公司网站!
您现在的位置:首页 >> 解决方案 >> 基于集成学习方法的烟草叶片氮含量无人机高光谱估测
基于集成学习方法的烟草叶片氮含量无人机高光谱估测
浏览次数:350发布日期:2023-08-10

题目

基于集成学习方法的烟草叶片氮含量无人机高光谱估测

 

应用关键词

高光谱遥感叶片含氮量、集成学习、烟草

 

背景

烟草生产是中国西南地区农业和农村经济发展的关键支柱。为了给烟叶质量优化提供信息支持,减轻烟农的劳动负担,对快速、准确、实时的叶片氮含量(Leaf nitrogen content, LNC检测方法有很大需求。无人机机载高光谱遥感Hyperspectral remote sensing, HRS能够以非破坏性的方式获取成像光谱数据,实现烟叶LNC的快速获取。

一般来说,可以使用经验方法或物理方法建立模型,或者两者相结合,以实现目标性状的反演。为了解决单个反演方法的异质性,一些学者提出了作物表型性状估计的集成学习框架。与试图从训练数据中学习一个假设的普通机器学习方法不同,集成方法试图构建一组假设并将它们组合起来使用。集成学习的思想是结合几种不同的方法来增强输入的多样性,以挖掘更多的数据特征,从而提高模型的整体性能。

本研究旨在建立一种准确有效的模型,利用无人机机载高光谱图像估计烟草LNC研究中测试了几种基于三种集成学习策略的典型算法,包括随机森林(RF回归、自适应增强Adaboost回归和堆叠回归。此外,我们选择了常用的偏最小二乘回归(PLSR作为基准模型。主要创新点有:(1研究了无人机机载HRS在烟草LNC估算中的潜力;(2评估不同集成学习策略baggingboostingstacking下模型的性能;(3探索基于堆叠策略提高模型预测精度的可行方法

 

试验设计

江苏大学赵春江教授团队利用Gaiasky-Mini2-VN高光谱相机(江苏双利合谱公司)获取了研究区内不同氮处理下烟草冠层的高光谱影像,其波段范围为400 ~ 1000 nm,波段数为256。各类地物的光谱曲线如图1所示。在整个田间试验过程中,每约20天采集一次冠层图像,从移栽后35天开始,一直持续到收获。

影像获取后,第一步,利用ExG去除背景,并提取平均反射率。第二步,利用连续投影算法(SPA)进行数据降维。第三步,建立LNC估计模型,研究中选择了常用的PLSR作为基准模型(图1)。此外,采用集成学习方法来完成上述相同的回归任务。集成学习框架下有三种建模策略,即baggingboostingstacking本研究以决定系数(R2、均方根误差RMSE和平均绝对百分比误差MAPE作为评价指标。

1 本研究主要步骤流程图

 

结论

本研究对全波段高光谱反射率数据进行主成分分析(PCA),提取对LNC变化更敏感的主成分(PC如图2所示,选取前80PC进行显示,当主成分数为467时,累积方差贡献率(AVCR分别超过99.5%99.8%99.9%我们选择SPA作为二次降维算法。PCA不同,SPA可以通过选择LNC变化更敏感的变量来降低数据维度,最终保留了15个波段(图3)。

2 7PC贡献了超过99.9%的信息

3 选择的15个波段

从图4可以看出,PLSRR2相对较低,但训练集与测试集之间的差距较小。由于PLSR结合了PCAMLR。在这里,我们也给出了MLR的预测结果,训练集和测试集之间的差距也很小(图4c4d)。结果表明,训练良好的MLR模型具有良好的稳定性,样本分布均匀同时也证明了我们的数据集划分是合理的。

4g – 4p显示了集成学习方法的结果,包括RFAdaboost和堆叠模型。RFAdaboost都是基于决策树回归(DTR),为了避免过拟合,我们将𝑚𝑎𝑥_𝑑𝑒𝑝𝑡的值设置为5DTR的预测结果如图4e和图4f所示。对于堆叠模型,我们采用双层结构,MLRDTR模型stacking – 1作为第一层的基估计器,MLR作为第二层的元估计器。结果表明,stacking - 3模型预测效果好。与DTR模型在测试集上的预测结果相比,stacking - 1模型得到了显著增强,但相较于SPA-MLR改进幅度较小。结果表明,叠加策略可以传递基估计器的优点。通过组合多个模型来挖掘更有价值的数据特征。在图4m - 4p中也可以看到类似的现象。通过将已经训练好的模型添加到堆叠框架的第一层,可以发现在最终表现上也有逐渐的改善。当添加RF模型时stacking – 2),测试集上的R2不仅从0.710提高到0.743,而且超过了RF本身的R2RMSE值也有小幅下降。当Adaboost模型被添加时stacking – 3),与stacking – 2相比,准确度只有轻微的提高

综上所述,stacking - 3模型的R2RMSE最高0.745, 4.824 mg/g),Adaboost模型的MAPE最小17.56%)。原因可能是堆叠方法可以从不同的模型中提取更多可用的数据特征。由于数据噪声的存在,模型在数据特征上往往表现不同。堆叠法可以提取各模型中表现较好的特征,丢弃较差的特征,有效地优化预测结果,提高最终的预测精度。Adaboost模型可以根据每个基估计器的预测误差调整其权重。错误率小的基估计器在最终结果中占有较大的权重。因此,Adaboost模型得到最小的MAPE。对于RF,基估计量相互独立,最终结果是所有基估计量的简单平均值,因此RF模型更容易受到异常值的干扰。

4 训练集和测试集下不同模型性能比较

进一步分析每个基估计器对最终结果的贡献。我们首先选择已经训练好的RFAdaboost模型作为基估计器(图5ab)。stacking - 4的综合性能优于RF。将DTRMLR分别加入到stacking - 4模型中,得到stacking - 5stacking - 6模型。结果如图5cf所示。stacking - 5stacking - 6模型之间存在非常小的差异。同时,stacking - 4模型R2 = 0.876stacking - 6模型R2 = 0.779在训练集上存在显著差异

从某种意义上说,DTRRFAdaboost模型基于树的模型是同质的,因为DTR本身是RFbagging & DTR|Adaboostboosting & DTR模型的基估计器。因此,添加DTR不能使模型挖掘更多可用的数据特征。这可能就是stacking - 5模型的性能变化不大的原因。对于线性模型MLR,它与基于树的模型原理是不同的,可以学习到一些新特征。虽然在测试集上的表现略有下降,但在训练集上取得了进步。模型的整体稳定性得到了提高。综上所述,RFAdaboost几乎贡献了所有的堆叠精度,然后MLR有助于提高模型的稳定性

最后,对如何正确配置堆叠模型提出了一些建议。理想情况下,堆叠策略的第一层中的基估计器应该是“准确和异构的”。通过这种方式,可以学习更多有价值的数据特征。此外,为了避免过拟合,第二层的元估计器通常选择一个简单的模型(线性或回归,该模型使用第一层的输出作为训练的输入。

 

5 进一步分析堆叠策略

 

作者信息

赵春江,博士,江苏大学农业工程学院教授,博士生导师。

主要研究方向:农业智能系统与精准农业技术装备

参考文献:

Zhang, M.Z., Chen, T.E., Gu, X.H., Kuai, Y., Wang, C., Chen, D., & Zhao, C.J. (2023). UAV-borne hyperspectral estimation of nitrogen content in tobacco leaves based on ensemble learning methods. Computers and Electronics in Agriculture, 211.

https://doi.org/10.1016/j.compag.2023.108008