bat365中文官方网站王雪副教授指导的2020级硕士研究生陈蕊同学以第一作者,王雪副教授为通讯作者在中科院分区三区期刊《光谱学与光谱分析》录用了题为“基于随机森林特征重要性和区间偏最小二乘法的近红外光谱波长筛选方法”的研究论文。
在快速建立近红外光谱定量分析模型时,特征波长筛选是提高定量分析预测精度较为有效的方法之一。随机森林作为一种集成算法,可根据计算特征重要性进行特征筛选。将基于随机森林袋外数据(OOB)的平均精度下降(MDA)方法计算均方误差平均值作为特征重要性结果,通过设置特征重要性阈值筛选特征变量构成特征波长子集。此外,由于随机森林的随机抽样和随机特征选取的双重随机特性,特征波长子集中可能包含无效甚至是干扰变量,并不能保证所选变量的有效性,故而进一步提出随机森林特征重要性-区间偏最小二乘(RF-iPLS)波长筛选方法。为了说明RF-iPLS算法的合理性,特征子集经过蒙特卡洛(MC)方法500次样本特征采样后,构建RF-MC-iPLS算法,结果说明RF-iPLS算法在预测模型中的特征波长筛选是有效的,且具有较低的时间复杂度。为了进一步验证改进的RF-iPLS算法的有效性,应用一组公开谷物蛋白质近红外光谱数据,建立PLSR模型,极大地提高了预测精度且预测结果最优,说明RF-iPLS是一种有效的特征波长筛选方法,可以简化近红外光谱定量分析模型的复杂度并实现高效降维。
Fig.1Flow diagram of the RF-iPLS
(A)RF-iPLS (B)RF-MC-iPLS
图2 特征波长分布图
Figure.2 Feature wavelengthdistribution
本研究得到了黑龙江省“百千万”工程科技重大专项(2019ZX14A0401),中央支持地方高校改革发展资金(2020GSP15),黑龙江省博士后面上项目(LBH-Z19217),bat365官网登录入口三横三纵支持计划(ZRCQC201907)以及bat365官网登录入口学成人才科研启动基金(XDB202004)的资助。