3.无信息变量消除方法(unin formative variables elimination,UVE)
无信息变量消除(UVE)方法[108]是基于P LS回归系数b建立的一种波长选取方法。其具体算法如下:
(1)将校正集光谱阵X(n×m)和浓度阵Y(n ×1)进行P LS回归,并选取最佳主因子数f;
(2)人为产生一噪声矩阵R(n×m),将X与R 组合形成矩阵XR(n×2m),该矩阵前m列为X,后m列为R;
(3)对矩阵XR和Y进行P LS,每次剔除一个样品的交互验证,得到n个P LS回归系数组成矩阵B (n×2m);
(4)按列计算矩阵B(n×2m)的标准偏差s(1×2m)和平均值mn(1×2m),然后计算h(i)=mn
(i)P s(i),i=1,2...,2m;
(5)在[m+1,2m]区间取h的最大绝对值h max =max(abs(h));
(6)在[1,m]区间去除矩阵X对应h UVE方法在选取波长时集噪声和浓度信息于一体,且较直观实用。Centner将其应用于模拟和实际NIR光谱数据,并与其它相关方法进行比较,UVE 方法得到的SEP最小[108]。K oshoubu等人对UVE算法中的P LS主因子数的选取进行了改进,应用于红外光谱测定水2乙醇混合物中的乙醇含量,其结果优于相关系数等方法[109]。Jouan2Rimbaud还将UVE用于小波变换提取光谱数据中与待测组分相关信息[55]。此外,基于P LS回归系数b或权重w的波长选择方法还有交互变量选择(interactive variable se2 lection,I VS)等方法[110—113]。 4.遗传算法(genetic alg orithm,G A) 遗传算法最初是由H olland于1975年提出的,它借鉴生物界自然选择和遗传机制,利用选择、交换和突变等算子的操作,随着不断的遗传迭代,使目标函数值较优的变量被保留,较差的变量被淘汰,最终达到最优结果[114]。NIR自70年代提出以来,在分析化学领域得到了较多应用[115—119],其中在特征变量筛选方面获得了较好的结果。 (1)遗传算法实现过程 遗传算法的实现主要包括5个基本要素:参数编码、群体的初始化、适应度函数的设计、遗传操作设计、收敛判据和变量的选取等。NIR的具体实现步骤如下[120—122]: ①参数编码。由于NIR不便直接处理空间数 ? 6 3 5 ?化 学 进 展第16卷? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 据,需通过编码将它们表示成遗传空间的基因串结构数据,一般采用基于0P1字符的二进制串形式。对于包含m个参数(如波长)的问题,可用一串含有n×k个字符(对应于基因)的向量(对应于染色体)表示,k表示每个参数需要的基因位数。对于波长选择来说,通常k选取1,即一条染色体中的每个基因对应一个实际参数,若基因为1表示其代表的参数被选中,基因为0则未被选中。 ②群体的初始化。随机或根据一定的限制条件产生一个给定大小的初始群体,群体的大小即个体(染色体)的数目可根据参数(基因)的多少选定,一般选30—100。 ③适应度函数的设计。NIR根据适应度函数来评价个体的优劣,作为以后遗传操作的依据。由于在整个搜索进化过程中,只有适应度函数与所解决的具体问题相联系,因此,适应度函数的确定至关重要。对于波长选择,可选用P LS交互验证中浓度阵的预测值与实际值的相关系数(r)、SEC或SEP作为适应度函数。 ④遗传操作设计。遗传操作由选择、交叉和变异构成。 选择:选择算子又称复制算子,通过选择把适应度高的个体直接遗传到下一代或通过交叉或变异产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。选择的目的是为了避免基因缺陷、提高全局收敛性和计算效率。选择方法包括适应度比例、最优保存、确定式采样及排序选择等方法,其中最常用的选择方法为适应度比例方法,也称转轮法,每个个体的选择概率与其适应度成比例。 交叉:交叉运算是指两个相互配对的染色体按某种方式相互交换其部分基因,从而形成两个新的个体。它是NIR中最主要的算子,是产生新个体的主要方法,寻优的搜索过程主要是通过它来实现的,因此,它决定了NIR的全局搜索能力。交叉算子有随机一点交叉、两点与多点交叉、均匀交叉和算术交叉等,交叉概率一般选择015—018。在交叉运算前必须对群体中的个体进行配对,目前常用随机配对策略,即将群体中的N个个体随机组成N P2对配对个体组,交叉运算在这些配对个体组中的两个个体之间进行。 变异:变异是将个体染色体编码串中的某些基因进行补运算,即0变为1,或1变为0。引入变异算子的目的是维持群体的多样性,防止出现未成熟收敛现象,此外还改善NIR的局部搜索能力。交叉算子和变异算子相结合,共同完成对搜索空间的全局和局部搜索,从而使NIR能够以良好的搜索性能完成最优化问题的寻优过程。最简单的变异算子为基本位变异算子,即在个体中随机挑选一个或多个基因以变异概率作变动,变异概率为0101—011。此外还有均匀变异、非均匀变异、边界变异和高斯变异等变异算子。 ⑤收敛判据。常规的数学规划方法在数学上都有比较严格的收敛判据,但NIR的收敛判据基本是启发式的。因此,NIR的判据较多,如计算时间、计算机变量或从解的质量方面等确定判据。选取遗传迭代次数是常用的收敛终止条件,其取值范围一般为100—1000。 ⑥变量选取。在遗传迭代终止后,所有变量按选取频率重新排列,再由选取变量数与适应度函数作图选定最佳变量数,最终得到所选的变量。 (2)遗传算法在NIR波长选择中的应用 NIR用于NIR波长选择的目的主要是优化分析模型以提高其预测能力,以及建立抗外界因素如环境温度影响小的稳健分析模型,而且通过所选波长可以更好地解释待测组分对应的光谱区域。 Rimbaud[123]将G A与M LR相结合用于NIR测定不同种类(不同化学结构)聚醚多元醇的羟值,其结果与全谱P LS或PCR相当。Ding[124]考察了不同仪器分辨率对G A选取波长结果的影响,随着分辨率的下降,G A对波长优化选择的优势逐渐变强。Ban2 galore等人[125]针对三组光谱交叠严重且浓度含量在检测限附近的NIR光谱数据,用G A选取与待测物相关性强的波长通过P LS建立分析模型,结果较全谱P LS显著提高。R oger[126]使用G A对短波NIR测定樱桃中白利糖度的模型进行优化,其结果要比平滑、归一化和导数等预处理方法所得的SEP低约3个白利糖度,同时还比较了不同交互验证方法对波长选择的影响。Leardi[127,128]先后用多个NIR校正集(包括大豆、牛奶、小麦、汽油、粮食和有机物混合物等)10余种组成和性质对G A选取波长优化P LS分析模型的有效性进行了考察,均取得了较好的结果。最近,Leardi[129]又将G A用于选取红外光谱波长,结合P LS测定聚合物膜中的两种添加剂,不仅提高了模型的预测能力,而且有助于解释光谱。褚小立[130]利用G A对NIR测定石油产品有关组成的波长变量进行筛选,结果表明,通过G A选取波长在简化P LS 模型的同时也增强了所建立模型的预测能力,尤其 ? 7 3 5 ? 第4期褚小立等 近红外分析中光谱预处理及波长选择方法进展与应用? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 适用于单纯P LS较难校正关联的体系。王宏等人[131]的研究结果也表明,G A优选的波长与样品中被测成分有关,即使样品复杂程度发生变化这种有效性也未变,可提高NIR无创性检测人体血糖浓度的精度。Smith[132]则将G A波长选择与PC A2M D方法结合用于NIR模式识别,完全将两种极为相似的微晶纤维素进行分类,而使用全波长的正确识别率只有85.7%。van den Broke[133]则将类似的方法用于红外光谱成像识别中。 选取信息强且对外界因素变化不敏感波长是建立稳健NIR分析模型的一个有效途径[134,135]。褚小立等人[75]利用G A选取对样品温度不敏感的波长,建立了样品温度稳健的测定重整汽油芳烃组成和辛烷值的NIR校正模型。Durmus[136—139]则采用基于G A选取波长的遗传回归方法(genetic regression)来建立稳健模型以及解决模型在不同仪器间传递的问题。所谓的遗传回归是通过将G A选取的波长进行组合以及简单的数学运算后,利用最小二乘回归来实现的。 G A除选择波长外,还可用于模型建立中其它变量的优化选取。Shaffer等人[140]在使用NIR对牛血清白蛋白、人血清和牛血中的葡萄糖进行测定时,采用G A对带通数字滤波的位置、带宽、光谱范围以及P LS主因子数进行了优化,同时考察了不同适应度函数对结果的影响。Ding[141]也采用G A对带通傅里叶数字滤波的位置和带宽进行选择,使NIR测定水中微量有机污染物(1—160ppm)成为可能。Depcz2 ynski[142]利用G A选取小波系数建立NIR定量分析模型。Barros[143]和Frost[144]采用G A对P LS或PCR 所用的主成分进行优化选取组合,所建模型的预测能力优于传统按顺序选取前几个主成分来回归的结果。 综上所述,G A以其全局最优、易实现等特点,成为目前最常用且最有效的一种波长选择方法[145,146]。但在实际使用时应注意以下问题:其一,由于NIR的初始群体是随机选取的,选择、交叉和变异也带有较强的随机性,所以不能保证每次波长选取结果的一致性;其二,根据经验,在使用G A时,校正集中波长变量与样品数的比值一般要小于4,否则得到的结果是不可靠的;其三,选择的合适的适应度函数对G A尤其重要,不同的适应度函数得到的结果将大相径庭。 5.其它波长选取方法 模拟退火算法(simulated annealing alg orithm,S AA)也是一种常用的变量选取方法[147],提出于本世纪80年代初,其思想源于固体退火过程:将固体加温至充分高,再让其徐徐冷却。加温时,固体内部粒子随温升变为无序状,内能增大;而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。根据Metropolis准则,粒子在温度T时趋于平衡的几率为e-ΔE P(kT),其中E为温度T时的内能,ΔE为其改变量,k为Boltz2 mann常数。S AA解决组合优化问题的步骤是,将内能E模拟为目标函数值f,温度T演化成控制参数t,即得到解组合优化问题的模拟退火算法:由初始解p和控制参数初值t开始,对当前解重复“产生新解→计算目标函数差→判断是否接受→接受或舍弃”的迭代,并逐步衰减t值,算法终止时的当前解即为所得近似最优解。退火过程由冷却进度表控制,包括控制参数的初值t及其衰减因子Δt、每个t 值时的迭代次数L和停止条件S。S AA用于波长选取的具体算法及应用可参见有关文献[148,149]。 间隔偏最小二乘方法(interval P LS,iP LS)[150]是Norgaard提出的一种波长区间选择方法:首先将NIR 全谱分割成等长的多个区间,用P LS回归得到的SEC评价出最优的一个区间;然后再以该区间为中心单向或双向扩充(或消减)波长变量,得到最佳的波长区间。该方法还可以与G A方法结合,选择几个最优的波长区间组合。此外,与iP LS相似的光谱区间选择方法还有窗口移动P LS方法[151,152]。 除以上提到的波长选择方法外,用于光谱波长选取的方法还有统计学方法[159]、多链方法(mutiple2 chain method,MC M)[154,155]及连续投影波长选取方法等[156—158]。 四、结束语 光谱预处理和波长选取方法在近红外光谱分析中的重要地位已是不言而喻的,其直接决定着所建分析模型的预测能力和长期可靠性。目前,文献涉及的光谱预处理和波长选取方法多达几十种,且每种方法如小波变换又有不同的参数和函数。所以,在实际应用时,就会遇到如何选取最优方法的问题。尽管有一定的规律可寻,如导数方法一般用于基线校正,MSC、S NV和二阶导数方法用于漫反射NIR光谱以消除颗粒分布不均匀引起的光散射,小波变换可以有效消除光谱背景,提高模型的稳健性,如果使用得当波长选择方法总能简化模型、提高预测能力等。但在具体应用时,不同的分析体系及所解决问 ? 8 3 5 ?化 学 进 展第16卷? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 题的不同,最佳预处理方法也不尽相同,仍需要对一些可能的方法进行比较,以确定最佳结果[159—167]。 若分析体系相对复杂,仅用一种光谱预处理方法往往不能得到较好的结果,这时可将不同预处理和波长选取方法结合使用,以获得预期的结果。但不同预处理方法的组合及运算顺序仍需要尝试优化。早期,有文献提出采用因子设计方法来解决预处理方法的组合问题[168],但这一问题有待进一步探讨。在2003年召开的11届国际近红外光谱会议上,光谱预处理方法作为一个专题进行了研讨。其中,Fernández2Cabanás等人将7种预处理方法组合成56种方法,对NIR测定饲料中的粗蛋白和粗脂肪[169]以及测定猪脂肪中的各种脂肪酸[170]的分析模型进行了优化,得到了满意的结果。 将预处理和波长选取方法融入到多元校正步骤中形成新的校正和预处理方法,而非在校正之前单独使用,是该领域未来的一个重要发展方向。可以相信,随着对预处理和波长选取方法的深入研究和理解,势必会推动近红外光谱分析技术的不断发展和应用。这些预处理和波长选取方法对其它分析技术也有一定的借鉴意义。
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新资格考试认证近红外分析中光谱预处理及波长选择方法进展与应用(4)全文阅读和word下载服务。
相关推荐: