收稿:2003年5月,收修改稿:2003年7月 3通讯联系人 e 2mail :cxlyuli @1bfa14a3e009581b6ad9eb02
近红外分析中光谱预处理及波长选择
方法进展与应用
褚小立3
袁洪福 陆婉珍
(石油化工科学研究院 北京100083)
摘 要 光谱预处理和波长选取方法在近红外光谱分析技术中相当重要。本文综述了常用的NIR 预处
理和波长选取方法及这一领域的最新进展,详细介绍正交信号校正(OSC )、净分析信号(NAS )和小波变换(WT )等新光谱预处理方法以及无信息变量消除(UVE )和遗传算法(G A )等波长选取方法,并给出了这些方法的具体算法和一些应用实例。
关键词 近红外光谱 化学计量学 光谱预处理 正交信号校正 净分析信号 小波变换 遗传算法 无信息变量消除
中图分类号:O657133 文献标识码:A 文章编号:10052281X (2004)0420528215
Progress and Application of Spectral Data Pretreatment and W avelength
Selection Methods in NIR Analytical Technique
Chu Xiaoli
3
Yuan Hongf u Lu Wanzhen
(Research Institute of Petroleum Processing ,Beijing 100083,China )
Abstract In the past decade ,near in frared spectral analysis technique (NIR )has been quickly developed and widely applied in virtue of the development of chem ometrics ,in which spectral data pretreatment and wavelength selection methods play an im portant role.In the paper ,the typical and comm only used pretreatment and wavelength selection meth 2ods are described.S ome newly developed methods in this field such as orthog onal signal correction (OSC ),net analyte signal (NAS ),wavelet trans form (WT ),elimination of unin formative variables (UVE )and genetic alg orithm (G A )methods are introduced in detail with 170references.The alg orithms and applications in NIR analysis of those methods are given and discussed.
K ey w ords NIR ;chem ometrics ;spectral data pretreatment ;OSC ;NAS ;WT;G A ;UVE
一、引 言
近年来,随着计算机技术和化学计量学的发展,现代近红外光谱(NIR )分析技术以其分析速度快、效率高、成本低和易于实现在线分析等特点,在农业、医药、石化、烟草和食品等行业得到广泛应用[1—3]。NIR 光谱区(700—2500nm )主要是由含氢基团的倍频和组频吸收峰组成,吸收强度弱灵敏度相对较低,吸收带较宽且重叠严重。因此,依靠传统
的建立工作曲线方法进行定量分析是十分困难的。
化学计量学的发展为这一问题的解决奠定了数学基础。
化学计量学方法在NIR 分析中的应用主要包括
以下4个方面:(1)光谱预处理和波长筛选方法[4]
,目的是针对特定的样品体系,通过对光谱的适当处理或变换,减弱以至于消除各种非目标因素对光谱的影响,尽可能地去除无关信息变量,提高分辨率和灵敏度,从而提高校正模型的预测能力和稳健性;
第16卷第4期2004年7月
化 学 进 展
PROG RESS I N CHE MISTRY
Vol.16No.4
July ,2004
? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
(2)建立NIR定量分析模型的多元校正方法[5],如多元线性回归(M LR)、主成分回归(PCR)、偏最小二乘(P LS)、局部权重回归(LWR)和人工神经网络(ANN)等,目的是建立用于预测未知样品性质或组成的分析模型;(3)模式识别定性方法,如线性学习机、K2最近邻法和SI MC A法等有监督的模式识别方法,以及聚类分析法等无监督模式识别方法,目的是通过近红外光谱数据对不同样本按某些共同的特征进行分类识别,从而发现被量测样本之间的内在联系,获得决策性的信息[6]。(4)模型传递方法[7],如有限脉冲响应算法(FIR)、直接校正算法(DS)、分段直接校正算法(PDS)和Shenk’s算法等,目的是将在一台仪器上建立的定性或定量校正模型可靠地移植到其它相同或类似的仪器上使用,或将在某一条件建立的模型用于同一台仪器另一条件采集的光谱,从而减少建模所需的时间和费用。除此之外,应用于NIR分析的化学计量学方法还有模型界外样品的识别方法、校正样品的选择方法、模型质量控制方法以及模型评价方法等。
在近红外光谱分析使用的这些化学计量学方法中,光谱预处理和波长选取方法是基础,定性和定量分析都是在此基础上进行的。因此,光谱预处理和波长选取方法,尤其是光谱预处理方法对建立预测能力强、稳健性好的分析模型至关重要,有时甚至起决定作用[8]。本文综述了常用的NIR预处理和波长选取方法及这一领域的最新进展,详细介绍正交信号校正(OSC)、净分析信号(NAS)和小波变换(WT)等新光谱预处理方法,以及用于波长选取的遗传算法(G A)和无信息变量消除(UVE)方法,并给出了这些方法的具体算法和一些应用实例。
二、光谱预处理方法与应用
近红外光谱仪所采集的光谱除样品的自身信息外,还包含了其它无关信息和噪音,如电噪音、样品背景和杂散光等。因此,在用化学计量学方法建立模型时,旨在消除光谱数据无关信息和噪音的预处理方法变得十分关键和必要。常用的谱图预处理方法有数据增强变换、平滑、导数、标准正态变量变换、多元散射校正、傅立叶变换等。近几年,小波变换、正交信号校正和净分析信号等一些新方法正在得到发展和应用。
1.数据增强算法(data enhancement)
在使用多元校正方法建立近红外光谱分析模型时,将光谱的变动(而非光谱的绝对量)与待测性质或组成的变动进行关联。基于以上特点,在建立NIR定量或定性模型前,往往采用一些数据增强(data enhancement)算法[4]来消除多余信息,增加样品之间的差异,从而提高模型的稳健性和预测能力。常用的算法有均值中心化(mean centering)、标准化(autoscaling)和归一化(normalization)等,其中均值中心化和标准化是最常用的两种方法,在用这两种方法对光谱数据进行处理的同时,往往对性质或组成数据也进行同样的变换。
2.平滑(sm oothing)算法
由光谱仪得到的光谱信号中既含有有用信息,同时也叠加着随机误差(噪声)。信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信噪比。常用的信号平滑方法有移动平均平滑法和Savitzky2G olay卷积平滑法[10,11]。
采用移动平均平滑法,平滑窗口宽度是一个重要参数:若窗口宽度太小,平滑去噪效果将不佳;若窗口宽度太大,进行简单求均值运算,会平滑掉一些有用信息,造成光谱信号的失真。为此Savitzky2G o2 lay提出了卷积平滑法。
Savitzky2G olay卷积平滑法与移动平均平滑法的基本思想是类似的,只是该方法没有使用简单的平均,而是通过多项式来对移动窗口内的数据进行多项式最小二乘拟合,其实质是一种加权平均法,更强调中心点的中心作用。Savitzky2G olay卷积平滑法是目前应用较广泛的去噪方法,但应注意移动窗口宽度及多项式次数的优化选择。
3.导数算法(derivative)
光谱的一阶(1st Der)和二阶导数(2nd Der)是NIR 光谱分析中常用的基线校正和光谱分辨预处理方法。对光谱求导一般有两种方法:直接差分法和Savitzky2G olay求导法。
对于分辨率高、波长采样点多的光谱,直接差分法求取的导数光谱与实际相差不大;但对于稀疏波长采样点的光谱,该方法所求的导数则存有较大误差,这时可采用Savitzky2G olay卷积求导法计算。
Savitzky2G olay卷积平滑也可用于求取导数光谱,通过最小二乘可计算得到与平滑系数相似的导数系数,可通过查表得到[10]。
导数光谱可有效地消除基线和其它背景的干扰,分辨重叠峰,提高分辨率和灵敏度。但它同时会引入噪声,降低信噪比。在使用时,差分宽度的选择是十分重要的:如果差分宽度太小,噪声会很大,影
?
9
2
5
?
第4期褚小立等 近红外分析中光谱预处理及波长选择方法进展与应用? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
响所建分析模型的质量;如果差分宽度太大,平滑过度,会失去大量的细节信息。可通过差分宽度与校正标准偏差(SEP)或预测标准偏差(SEC)作图来选取最佳值[12],一般认为差分宽度不应超过光谱吸收峰半峰宽的115倍。
4.SNV和去趋势(de2trending)算法
标准正态变量变换(standard normal variate trans2 formation,S NV)主要是用来消除固体颗粒大小、表面散射以及光程变化对NIR漫反射光谱的影响[13]。S NV与标准化算法的计算公式相同,不同之处在于标准化算法对一组光谱进行处理(基于光谱阵的列),而S NV算法是对一条光谱进行处理(基于光谱阵的行)。对需S NV变换的光谱X
i,k
按式(1)计算:
X i,S NV=
X i,k-X i
∑m k=1(X
i,k
-X i)2
(m-1)
(1)
式中,X
i
为第i样品光谱的平均值(标量),k=1,2,…,m,m为波长点数;i=1,2,…,n,n为校正集样
品数。
去趋势算法(de2trending)通常用于S NV处理后的光谱,用来消除漫反射光谱的基线漂移。其算法
非常直接,首先按多项式将光谱x
i的吸光度和波长拟合出一趋势线d
i
,然后把d i从x i减掉(x i-d i)即可。该算法除了和S NV联合使用外,也可以单独使用。应注意的是在使用S NV前需要将反射光谱单位转换成log1P R的形式。
5.MSC和PMSC算法
多元散射校正(multiplicative scatter correction, MSC)的目的与S NV基本相同[14,15],主要是消除颗粒分布不均匀及颗粒大小产生的散射影响。MSC算法的属性与标准化相同,是基于一组样品的光谱阵进行运算的。
(1)MSC
MSC是由Martens[14]等人提出的,随后在NIR固体漫反射和浆状物透(反)射光谱分析时得到了广泛应用。MSC的具体算法如下:
①计算校正集样品的平均光谱x(1×m)(理想光谱);
②将x
i与x进行线性回归,
x i=l a i+x b i,求取a i和b i;(2)
③x
i,MSC
=(x i-l a i)P b i;(3)其中,i=1,2,...,n,n为校正集样品数;l为1×m 的单位向量,m为波长点数。
对于校正集外的光谱进行MSC处理时则需要用到校正集样品的平均光谱x,即首先求取该光谱
的a和b,再进行MSC变换。对于进行MSC处理的反射光谱单位应为log1P R或K ubelka2Munk形式。因MSC校正假定散射与波长及样品的浓度变化无关,所以,对组分性质变化较宽的样品,MSC的处理效果较差。有文献证明MSC与S NV是线性相关的[16],两种方法的处理结果也应是相似的。
除标准MSC算法外,还存在一些改进变形算法如反向信号校正(ISC)和扩展反向信号校正(EISC)[17—21]。但这些方法都不如MSC应用广泛。
(2)PMSC
由MSC算法可以看出,它消除散射影响的基本假设是每条光谱与“理想光谱”x在全波长范围内存在线性关系,即光散射对每个样品、每个波长点产生的影响是线性的。因此,通过简单的最小二乘法便可对全波长范围的光谱消除由光散射产生的线性基线或背景的影响。但在大多数实际情况中,这样的假设并不存在,如对于不同颗粒大小的样品,光散射引起的背景将十分复杂,仅靠校正集的平均光谱作为标准谱是远远不够的。分段多元散射校正(piece2 wise mutiplicative scatter correction)正是为消除这种非线性的散射而提出的[22]。与MSC算法相比,PMSC 在进行校正时,假设在移动窗口宽度为j=(w1+ w2+1)的波长范围内,x i与平均光谱x存在线性关系,对每一移动窗口分别按式(4)进行一元线性回归,由最小二乘法依次求出每段移动窗口的斜率b
ik
和截距a
ik。
x ij=l a ik+x j b ik(4) 用式(5)便可得到经PMSC校正后的光谱x i,k,P MSC:
x i,k,P MSC=(x i,k-a ik)P b ik(5)
式中,x
ij
=[x i,k-w1,x i,k-w1+1,...,x i,k,x i,k+w2-1, x i,k+w2],x j为在窗口宽度为(w1+w2+1)波长段的平均光谱;l为1×(w1+w2+1)的单位向量。
移动窗口大小的选择对处理结果影响较大。若移动窗口过大,区间的线性关系将不存在;若移动窗口过小,会显著减弱不同样品间的光谱差异,使所建模型的预测能力变差。
6.傅里叶变换(F ourier trans form,FT)
傅里叶变换(FT)是一种十分重要的信号处理技术,它能够实现频域函数与时域函数之间的转换[10,23—26],其实质是把原光谱分解成许多不同频率
?
3
5
?化 学 进 展第16卷? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
的正弦波的叠加和。根据需要可通过FT对原始光
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新资格考试认证近红外分析中光谱预处理及波长选择方法进展与应用全文阅读和word下载服务。
相关推荐: