(分析化学专业论文)多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用.pdf_第1页
(分析化学专业论文)多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用.pdf_第2页
(分析化学专业论文)多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用.pdf_第3页
(分析化学专业论文)多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用.pdf_第4页
(分析化学专业论文)多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用.pdf_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博一l :学位论文 摘要 本文作者对多元校正中的一些难点问题进行了深入的研究,提出了多种新型 化学计量学算法,并将其应用于标准校正数据集的研究,另外也对化学计量学二 维数据分析方法在色谱分离质量评价中的应用进行了一些研究。本论文主要包括 以下几个方面的工作: 1 探讨了多元校正建模中的训练集样品的代表性和最优化样品加权问题。由 于多元校正的样品光谱空间的多维性和复杂性以及样品选取过程中的不确定性, 准确估计训练集样品在整个样品空间的代表性尚存在一定困难。传统的多元校正 模型大多根据经验方法选择代表性样品,在某些不利的情况下可能会影响校正模 型对新样品的预测性能。为解决以上问题,同时考虑到样品的代表性很难通过考 察单个样品进行估计,我们把全局优化样品加权的思想和偏最小二乘相结合,提 出了最优化样品加权偏最小二乘这一新算法。该算法通过对原来的训练集样品进 行非负加权,在校正建模过程中同时考虑了模型的复杂性和预测能力,最优样品 权重通过粒子群优化算法搜索获得。另外,为了使样品加权偏最小二乘的建模和 优化更加易于计算,我们进一步证明了样品加权校正模型可通过对每个样品的光 谱数据和组分浓度值乘以一个相同的非负常数实现。将该算法应用于真实的标准 数据集的结果表明,在原始校正样品的代表性较差时,最优化样品加权偏最小二 乘算法确实能够改善模型的预测性能。 2 基于粒子群优化算法,我们提出了一种较传统的变量选择方法更为灵活的变 量加权方法。通过对传统的基于变量选择的校正模型的考察可以发现,进入校正 模型的变量实际上被赋予权重l ,而被模型舍弃的变量的权重实则为o 。如果把权 重的概念引入变量选择,允许变量的权重取非负的连续值,则传统的变量选择只 是变量加权的一种特殊情况。另外,由于变量加权的目标是同时优化校正集的训 练和验证集的预测,连续非负的变量加权实际上可视为对光谱变量的某种最优化 重新刻度,因此比传统的变量选择有更多的灵活性。对真实校正数据集的研究表 明,变量加权偏最小二乘方法不仅能起到变量选择的作用,还能够在校正模型中 保留较多的变量,保持了多元校正的多通道优势。 3 我们改进了一种新的机器学习算法一叠加回归,并将其应用于多元校正, 同时实现了波长区间的快速自动优化选择和校正模型组合。我们用蒙特卡罗交互 验证代替了叠加回归中的传统的交互验证,再用改进了的叠加回归算法组合建立 在单个波长子区间上的偏最小二乘模型,所得模型在组合系数非负的约束下具有 最小的蒙特卡罗交互验证均方根误差,所以可以期望组合模型具有较好的泛化性 i l 多元校t f 新算法研究和二维数据分析方法在色谱分离评价中的应用 能和防止过拟合的能力。叠加回归能够通过非负最小二乘法确定模型组合系数, 把某些光谱子区间模型对应的组合系数置为0 ,从而实现波长子区间的自动选择。 另外,由于线性组合模型的蒙特卡罗交互验证可通过组合一系列子模型的蒙特卡 罗交互验证来实现,而单个的光谱子区间模型的交互验证计算量很小,所以该方 法与同类区间选择方法相比,计算量要小得多。对标准校正数据集的研究进一步 证实了该方法的实用性。 4 我们提出了一种多元校正中近红外光谱数据预处理的新概念一群预处理方 法。由于近红外光谱数据经常受到背景、基线漂移和噪声等不利因素的影响,对 原始光谱测量数据进行适当的预处理在很多情况下已经成为多元校正的必要步 骤。但是,由于光谱的复杂性和先验信息的缺乏,确定最好的预处理方法常常需 要多次尝试,并且要求操作者有一定的数据处理经验;另外,单一的预处理方法 在改善数据的某些方面的同时,也可能带来某些方面的负面影响和面临信息丢失 的风险,并且基于单一预处理方法的校正模型对新样品的预测可能缺乏稳定性。 为解决以上问题,我们提出了近红外光谱的群预处理方法,该方法用蒙特卡罗交 互验证叠加回归算法组合一系列基于不同预处理方法的校正模型,可以实现预处 理方法的自动选择和优化加权。对真实校正数据集的研究结果表明,基于群预处 理方法的校正模型与基于单一预处理方法的校正模型相比,不仅保持或改善了原 有模型的准确性,而且模型的稳定性有所提高。 5 我们把移动窗口偏最小二乘算法应用于多元校正的模型转移,建立了高稳 定性和低复杂度的全局校正模型。当把已有的校正模型应用于新样品的光谱校正 时,如果新样品的光谱含有与模型的训练样品不相同的光谱贡献时,为防止出现 偏差和严重的误差,就需要对原有的校正模型进行校正转移。我们把一种新的波 长区间选择方法一移动窗口偏最小二乘法引入到全局校正模型中。移动窗口偏最 小二乘法能够选择与化学组分相关的光谱子区间,并且能够降低全局模型的复杂 度。通过对标准的校正数据集的研究,基于移动窗口偏最小二乘的全局模型确实 体现了上述优点,较好地实现了校正模型的转移。 6 我们讨论了基于单通道检测器的色谱图的传统的色谱分离标准在估计色谱 分离质量时可能遇到的问题,并且指出,很多问题都是由于一维色谱图在严重峰 重叠的情况下缺少诸如组分数、重叠度和峰纯度等信息造成的。然后,我们综述 了化学计量学二维数据分析方法在色谱分离效率评价中的应用,并且依据文献和 我们的研究经验,对某些重要问题进行了讨论。 7 我们提出了一种新的基于秩图的色谱分离评价指标一峰纯度加权分辨率。 与传统的基于单通道信号检测器的色谱分离标准相比,峰纯度加权分辨率的优势 在于它同时利用了化学组分数、重叠程度、流出时间和峰纯度等关键色谱信息, 而这些信息在色谱峰严重重叠时是很难从一维色谱信号中获得的。对模拟色谱体 1 1 1 博十学位论文 系和一个真实色谱体系的研究表明,峰纯度加权分辨率的值能合理地反映色谱重 叠程度的大小,该标准确实可用于严重重叠的色谱图的分离估计。最后,我们还 讨论了使用峰纯度加权分辨率时应当注意的问题。 关键词:多元校正:样品加权;变量选择;变量加权;群预处理;色谱分离质量; 峰纯度加权分辨率; i v 多元校正新算法研究和_ 二维数据分析方法在色谱分离评价中的戍用 a bs t r a c t i h er e s e a r c hw o r ki nt h i st h e s i sf o c u s e so nn e wc h e m o m e t r i ca l g o r i t m sf o r m u l t i v a r i a t ec a l i b r a t i o na n dt h ea p p l i c a t i o n so ft w o - w a yd a t aa n a l y s i sm e t h o d st o c h r o m a t o g r a p h i cs e p a r a t i o ne v a l u a t i o n t h er e p r e s e n t i v e n e s so ft r a i n i n g s a m p l e sf o rm u l t i v a r i a t e c a l i b r a t i o nh a sb e e n d i s c u s s e da n dt h ec o n c e p to fw e i g h t e ds a m p l i n gh a sb e e ni n t r o d u c e dt om u l t i v a r i a t e c a l i b r a t i o n d u et ot h eh i g h d i m e n s i o n a l i t ya n dc o m p l e x i t yo fs p e c t r a ld a t as p a c ea n d t h eu n c e r t a i n t yi n v o l v e di ns a m p l i n gp r o c e s s ,t h er e p r e s e n t i v e n e s so ft r a i n i n gs a m p l e s i nt h ew h o l es m p l es p a c ei sd i f f i c u l tt oe v a l u a t ea n ds e l e c t i o no fr e p r e s e n t a t i v et r a i n i n g s a m p l e sf o rm u l t i v a r i a t ec a l i b r a t i o nd e p e n d sl a r g e l yo ne x p e r i e n t i a lm e t h o d s i ft h e t r a i n i n gs a m p l e sf a i lt or e p r e s e n tt h es a m p l es p a c e ,s o m e t i m e st h ep r e d i c t i o n so fn e w s a m p l e sc a nb ed e g r a d e d i no r d e rt o s o l v et h i s p r o b l e m ,an e wa l g o r i t h mf o r m u l t i v a r i a t ec a l i b r a t i o ni sd e v e l o p e db yc o m b i n i n go p t i m i z e ds a m p l i n ga n dp a r t i a l l e a s ts q u a r e s ( p l s ) ,w h e r et h eo r i g i n a lt r a i n i n gs a m p l e sa r en o n n e g a t i v e l yw e i g h t e d a n dt h ec o m p l e x i t ya n dp r e d i c t i v i t yo ft h em o d e la r ec o n s i d e r e ds i m u t a n e o u s l y m o r e o v e r , i th a sb e e np r o v e dt h a tw e i g h t e ds a m p l i n gc a nb ea c h i e v e db ym u l t i p l y i n g b o t ht h es p e c t r u ma n dc o n c e n t r a t i o nv a l u eo fas a m p l e b yt h es a m en o n n e g a t i v e c o n s t a n t ,w h i c hh a sm a d et h ec o m p u t a t i o no fs a m p l e w e i g h t e dm o d e l sm u c he a s i e r t w or e a ld a t as e t sa r ei n v e s t i g a t e da n dt h er e s u l t sd e m o n s t r a t et h a ts a m p l e - w e i g h t e d p l sm o d e l sc a ni m p r o v et h ep r e d i c t iv i t yo fam o d e lw h e nt h er e p r e s e n t i v e n e s so f o r i g i n a lc a l i b r a t i o ns a m p l ei sp o o r b a s e do np a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) a l g o r i t h m ,am o r ef l e x i b l em e t h o d f o rv a r i a b l es e l e c t i o n ,v a r i a b l ew e i g h t i n gi sp r o p o s e d w eh a v er e v i s i t e dt r a d i t i o n a l v a r i a b l es e l e c t i o nm e t h o d s a n df o u n dt h a ti ns u c hm e t h o d st h ev a r i a b l e si n c l u d e di nt h e m o d e la r ee s s e n t i a l l yw e i g h t e dw i t ho n e sa n dt h o s ee x c l u d e df r o mt h em o d e la r e w e i g h t e dw i t hz e r o s i fc o n t i n u o u sn o n n e g a t i v ew e i g h t sa r ea l l o w e d ,t h et r a d i t i o n a l v a r i a b l es e l e c t i o ni sj u s tas p e c i a lc a s eo fv a r i a b l ew e i g h t i n g s i n c et h ev a r i a b l e w e i g h t sa r ed e t e r m i n e dt os i m u l t a n e o u s l yo p t i m i z et h et r a i n i n go fc a l i b r a t i o ns e ta n d t h ep r e d i c t i o no fv a l i d a t i o n s e t ,v a r i a b l ew e i g h t i n g c a nb es e e na sa no p t i m i z e d r e s c a l i n go ft h ev a r i a b l e si nc e r t a i ns e n s ea n dt h e r e f o r ei sm o r ef l e x i b l e t h a n t r a d i t i o n a lv a r i a b l es e l e c t i o nm e t h o d s r e s u l t so b t a i n e df r o mr e a ld a t as e t si n d i c a t e t h a tv a r i a b l e - w e i g h t e dp l s ( v w p l s ) c a nn o to n l yp l a yt h es a m er o l ea sv a r i a b l e v 博j :学位论文 s e l e c t i o nb u tc a na l s om a i n t a i nt h em u l t i c h a n n e l a d v a n t a g eb yi n c l u d i n gm o r e v a r i a b l e si nt h em o d e l an e wm a c h i n el e a r n i n gm e t h o d ,s t a c k e dr e g r e s s i o ni s i m p r o v e d a n dt h e n i n t r o d u c e dt om u l t i v a r i a t ec a l i b r a t i o nt oa c h i e v ea u t o m a t i ca n df a s ts e p e c t r a li n t e r v a l s e l e c t i o n i n s t e a do ft r a d i t i o n a lc r o s sv a l i d a t i o n ( c v ) ,m o n t ec a r l oc r o s sv a l i d a t i o n ( m c c v ) i sa d o p t e di nt h ei m p r o v e ds t a c k e dr e g r e s s i o n ,w h i c hi st h e nu s e dt oc o m b i n e t h er e g r e s s i o nm o d e l sb u i l to nd i f f e r e n ts p e c t r a li n t e r v a l s w i t ht h en o n n e g a t i v e c o n s t r a i n t so ft h ec o b i n a t i o n c o e f f i c i e n t s ,t h er e s u l t e dc o m b i n e dm o d e lh a st h e m i n i m u mr o o tm e a ns q u a r e de r r o ro fm c c v ( r m s e m c c v ) ,s ot h em o d e li se x p e c t e d t oh a v eg o o dg e n e r a l i z i n ga b i l i t ya n dl e s sr i s ko fo v e r f i t t i n g s t a c k e dr e g r e s s i o nc a n o b t a i nt h ec o m b i n a t i o nc o e f f i c i e n t sb y n o n n e g a t i v el e a s ts q u a r e s ( n n l s ) a n ds p e c t r a l i n t e r v a ls e l e c t i o ni sa c h i e v e db ys e t t i n gs o m ec o e f f i c i e n t st ob ez e r o s m o r e o v e r , b e c a u s em c c vo fal i n e a r l yc o m b i n e dm o d e lc a nb ea c h i e v e db yl i n e a r l yc o m b i n i n g t h em c c vo ft h es e p a r a t ei n t e r v a lm o d e l s ,w h i c hi sm u c hs i m p l e rt oc o m p u t e ,t h e c o m p u t a t i o no fm c c vs t a c k e dr e g r e s s i o ni se c o n o m i c a l t h ep r a c t i c a b i l i t yo ft h e p r o p o s e dm e t h o di sd e m o n s t r a t e db yi t sa p p l i c a t i o n st ot w or e a ld a t as e t s an e wc o n c e p to fd a t ap r e p r o c e s s i n gf o rm u l t i v a r i a t ec a l i b r a t i o n ,e n s e m b l e p r e p r o c e s s i n gi sp r o p o s e d b e c a u s et h er a wn e a ri n f r a r e d ( n i r ) s p e c t r aa r eo f t e n i n f l u e n c e db yf a c t o r ss u c ha sb a c k g r o u n d s ,b a s e l i n es h i f t sa n dn o i s e ,i ti sn e c e s s a r yt o p r e p r o c e s st h er a wd a t ap r o p e r l yi nm u l t i v a r i a t ec a l i b r a t i o n h o w e v e r ,d u et ot h e c o m p l e x i t yo fn i rd a t aa n dl a c ko fp r i o ri n f o r m a t i o n ,t oa c h i e v et h eo p t i m a ld a t a p r e p r o c e s s i n gi s s t i l lt r i a la n de r r o ra n dr e q u i r e st h ee x p e r i e n c eo fp r a c t i t o n e r s a n o t h e rd i s a d v a n t a g eo ft r a d i t i o n a lp r e p r o c e s s i n gm e t h o d si st h a ta n yp r e p r o c e s s i n g m e t h o dh a st h er i s ko fi n f o r m a t i o nl o s sa n dm i g h td e g r a d et h ed a t ai ns o m ea s p e c t s w h i l ei m p r o v i n gt h ed a t ai nc e r t a i na s p e c t s m o r e o v e r , m o d e l sb a s e do nas i n g l e p r e p r o c e s s i n gm e t h o da r es o m e t i m e si n s t a b l ef o rp r e d i c t i n gn e ws a m p l e s t os o l v et h e a b o v ep r o b l e m sa n da c h i e v et h ea u t o m a t i cs e l e c t i o na n do p t i m i z a t i o no fp r e p r o c e s s i n g m e t h o d s ,a ne n s e m b l ep r e p r o c e s s i n gm e t h o di sd e v e l o p e db yc o m b i n i n gc a l i b r a t i o n m o d e l sb a s e do nd i f f e r e n tp r e p r o c e s s i n gm e t h o d st h r o u g hm c c vs t a c k e dr e g r e s s i o n r e s u l t so b t a i n e df r o mr e a ld a t as e t sd e m o n s t r a t et h a t c o m p a r e dw i t ht r a d i t i o n a l p r e p r o c e s s i n gu s i n gas i n g l em e t h o d ,e n s e m p l ep r e p r o c e s s i n gc a nl e a dt oam o r es t a b l e c a l i b r a t i o nm o d e lw h i l em a i n t a i n i n go ri m p r o v i n gt h ep r e c i s i o no ft h em o d e l m o v i n gw i n d o wp a r t i a ll e a s ts q u a r e sr e g r e s s i o n ( m w p l s r ) i si n t r o d u c e d t o c a l i b r a t i o nt r a n s f e rt od e v e l o pas t a b l ea n dl o w c o m p l e x i t yg l o b a lc a l i b r a t i o nm o d e l w h e na p p l i e dt on e w s a m p l e sc o n t a i n i n gs p e c t r a lv a r i a t i o n sn o tc a l i b r a t e d ,t h ee x i s t i n g v i 多元校正新算法研究和二维数据分析方法在色谱分离评价中的应用 c a l i b r a t i o nm o d e ls h o u l db ea d j u s t e dt oa v o i db i a sa n ds e r i o u se r r o r m w p l s rc a n s e l e c tc o n c e n t r a t i o n c o r r e l a t e ds p e c t r a li n t e r v a lsa n dr e d u c et h ec o m p l e x i t yo ft h e g l o b a lc a l i b r a t i o nm o d e l i n v e s t i g a t i o no ft w ob e n c h m a r kd a t as e t sh a sc o n f i r m e dt h a t g l o b a lc a l i b r a t i o nm o d e lb a s e do nm w p l s rh a st h ea b o v ea d v a n d a g e sa se x p e c t e d a n dc a na c h i e v es t a b l ea n dr e l i a b l ec a l i b r a t i o nt r a n s f e r t h ed i s a d v a n t a g e so ft r a d i t i o n a lc h r o m a t o g r a p h i cs e p a r a t i o nc r i t e r i ab a s e do n c h r o m a t o g r a m sr e c o r d e db ys i n g l e c h a n n e ld e t e c t o r sa r ed i s c u s s e d i ti sf u r t h e r p o i n t e do u tt h a tm a n yo ft h e s ep r o b l e m sa r ec a u s e db yl a c ko fi n f o r m a t i o nc o n c e r n i n g n u m b e ro fc o m p o n e n t s ,p e a kp u r i t ya n do v e r l a pd e g r e ei nt h ep r e s e n c eo fs e r i o u s l y o v e r l a p p e dp e a k s t h e nt h ea p p l i c a t i o n so ft w o - w a yc h e m o m e t r i cm e t h o d st oa s s e s s i n g c h r o m a t o g r a p h i cs e p a r a t i o nq u a l i t y a r er e v i e w e da n ds o m ei m p o r t a n tp r o b l e m s i n v o l v e da r ed i s c u s s e da c c o r d i n gt ol i t e r a t u r e sa n do u rr e s e a r c he x p e r i e n c e an e wc h r o m a t o g r a p h i cs e p a r a t i o n c r i t e r i o n ,p e a k - p u r i t yw e i g h t e dr e s o l u t i o n ( p p w r ) b a s e do nr a n kg r a p hi sp r o p o s e d c o m p a r e dw i t ht r a d i t i o n a ls e p a r a t i o n c r i t e r i ab a s e do no n e - w a yc h r o m a t o g r a m s ,t h ea d v a n t a g e so fp p w rl i ei nt h ef a c tt h a t i tg r a c e f u l l yc o n s i d e r st h ei n f o r m a t i o nc o n c e r n i n gn u m b e ro fc o m p o n e n t s ,p e a kp u r i t y a n do v e r l a pd e g r e e ,w h i c hi sd i f f i c u l tt oo b t a i nf r o mo n e w a yc h r o m a t o g r a m sw i t h s e r i o u so v e r l a p s p p w ri sa p p l i e dt oas i m u l a t e dd a t as e ta n dar e a lc h r o m a t o g r a h i c s y s t e m ,i n d i c a t i n gp p w ri s i n d e e dar e a s o n a b l es e p a r a t i o nc r i t e r i o nf o rs e r i o u s l y o v e r l a p p e dp e a k sa n dc a nr e f l e c tt h eo v e r l a pd e g r e e f i n a l l ys o m ei m p o r t a n tp r o b l e m s t h a tm i g h tb ee n c o u n t e dw h e nu s i n gp p w ra r ed i s c u s s e d k e yw o r d s :m u l t i v a r i a t ec a l i b r a t i o n ;s a m p l ew e i g h t i n g ;v a r i a b l es e l e c t i o n ; s p e c t r a l i n t e r v a l s e l e c t i o n ; e n s e m b l e p r e p r o c e s s i n g ; c h r o m a t o g r a p i cs e p a r a t i o ne v a l u a t i o n ;p e a k p u r i t yw e i g h t e d r e s o l u t i o n v i i 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签名:f 荨路日期:7 口口驴年i 口月z 7e l 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密戳 ( 请在以上相应方框内打“小) 作者签名: 导师签名: 侮浇 俞少 日期:2 矿矿驴年,d 月7 日 日期:护l ) 5 7 年1 0 月z7 日 博士学位论文 第1 章绪论 伴随着计算机科学和现代分析化学仪器化的迅速发展,分析化学学科正经历 着场巨大的变革,以化学分析为主的经典分析化学已经逐步发展成为一门以众 多仪器或联用仪器分析( 如色谱分析、电化学分析、光谱分析、质谱分析等) 为 主的现代分析化学i l 2 】。现代分析化学的两个重要特征分别是化学体系的复杂化和 分析手段的仪器化,如何从分析仪器提供的大量数据中提取有用的化学信息已成 为分析化学家解决复杂化学体系p j 分析问题时面临的一个重大挑战。面对这一挑 战,一门新兴的化学分支学科一化学计量学应运而生,并逐渐成为非常活跃的研 究领域之一【l - 9 1 。 化学计量学综合运用数学、统计学和计算机科学以及其他相关科学的理论和 方法,设计或选择最优量测方案,通过数据分析从化学量测数据中最大限度地提 取化学信息及其他相关信息,也可以说化学计量学是化学、分析化学、数学、统 计学和计算机科学等学科的一个“接口 1 - 9 】。1 9 7 1 年,瑞典化学家w o l d 教授在 为一项研究项目命名时,从“化学数据分析”( c h e m i c a ld a t aa n a l y s i s ) 、“化学中 的计算机 ( c o m p u t e ri nc h e m i s t r y ) 和“化学计量学”( c h e m o m e t r i c s ) 这三个备选 名称中选定了后者,初次提出了化学计量学这一学科新名词。l9 7 4 年,w o l d 教授 和美国化学家k o w a l s k i 教授共同创立了国际化学计量学学会,不仅极大地促进了 化学计量学的研究和应用推广,而且对分析化学甚至整个化学学科的发展都产生 了深远的影响。化学计量学家们不仅借鉴和灵活地运用了数学、统计学、计算机 科学和人工智能等许多学科的优秀成果,而且根据他们所研究的化学问题的特点 发展了一系列用于化学量测数据分析的化学计量学方法,编写了许多优秀的化学 计量学软件,很多软件己成为现代分析化学仪器的有机组成部分和化学家们进行 数据分析的得力助手。8 0 年代后期,化学计量学课程开始进入化学教学大纲,逐 渐成为大学化学专业学生的基础课程之一。两种化学计量学专业学术期刊,j o u r n a l o fc h e m o m e t r i c s ( 化学计量学杂志) 和c h e m o m e t r i c sa n di n t e l l i g e n tl a b o r a t o r y s y s t e m s ( 化学计量学与智能实验室系统) 的问世也进一步推动了该学科的发展和 成熟。 迄今为止,化学计量学已经经历了3 0 多年的发展,其基础理论和方法学已基 本形成了一套比较完整的体系,成为一门内涵相当丰富的化学学科分支,其研究 领域包括采样理论与方法、化学实验设计、过程控制与优化、多元校正、多元分 辨、化学信号处理、化学模式识别、化学定量构效关系、人工智能与化学专家系 统等。正如化学计量学的创始人之一k o w a l s k i 教授所说【1 0 】,“分析化学已经从单 多元校正新算法研究和二维数据分析方泫在色谱分离评价中的应用 纯的提供数据,上升到从分析化学数据中获取有用的信息和知识,成为生产和科 研中实际问题的解决者”。化学计量学这一独特的化学分支学科也给很多相关学 科的发展注入了新的活力,其应用范围 1 1 - 2 0 】覆盖了食品化学、环境化学、药物化 学、农业化学、有机化学、化学工程、海洋化学、地球化学、生物化学和材料化 学等学科。可以说,凡是涉及到化学量测及其数据分析处理的研究领域,就能看 到化学计量学的应用。 下面将介绍与本文的研究工作相关的一些化学计量学领域的发展,在绪论的 最后部分将大致概括本论文的研究工作。 1 1 多元校正 随着生物学、生命科学、药物科学、环境科学、食品科学等学科的迅猛发展, 对各种复杂混合物体系进行快速的定性和定量分析已成为现代分析化学的主要趋 势之一。多元校正方法为上述问题提供了一个很好的解决途径,已经在很多研究 领域获得了广泛的应用。多元校正主要研究如何从量测数据中提取化学体系的定 性与定量分析信息,不仅是分析化学计量学【2 卜2 3 】的核心内容,也在整个化学计量 学的方法体系中占有举足轻重的地位。 多元校正的实质是建立两类测量变量的数量关系,进而利用其中一类易于获 得的变量( 预测变量) 来预测另一类比较费时和昂贵的测量变量( 响应变量) ,例 如用光谱测量数据预测感兴趣组分的含量,即可用简便快速的光谱测量代替传统 的化学分析方法。与传统的单变量校正方法相比,多元校正不仅可以有效提高定 量分析的选择性,而且由于多( 分析) 通道优势,定量分析的可靠性更高。多元 校正方法已被广泛用于近红外光谱、核磁共振、光谱成像、质谱、色谱、传感器 阵列等多元量测数据 1 1 - 2 0 】。由于大多数光谱量测过程可认为近似服从比尔定 律以及线性模型的简洁性和易操作性,两种线性多元校正方法,主成份回归 ( p r i n c i p a lc o m p o n e n tr e g r e s s i o n ,p c r ) 2 4 , 2 5 】和偏最小二乘回归( p a r t i a ll e a s ts q u a r e s r e g r e s s i o n ,p l s r ) 2 6 , 2 7 】是最常用的方法。主成分回归和偏最小二乘回归都属于隐 变量回归方法,针对多元量测数据的多元共线性和变量数通常都大于样本数等特 点,此类方法用隐变量对数据进行了提取和压缩,用原始测量变量的线性组合构 成的一组隐变量来预测响应变量的值。采用隐变量的优势在于只保留预测变量中 的相关信息而除去了那些不相关和不稳定的信息,无论是经验还是理论研究都表 明,隐变量方法能够改善模型的预测性能。另外,由于所有的预测变量都被投影 到少量的隐变量上,数据的维数显著降低,更便于数据的图示和解释。在p c r 中, 主成份( 隐变量) 互相正交,并且依次具有最大的方差。p l s r 和p c r 的不同之处 在于,p l s r 在构造隐变量时还考虑了响应变量的信息,所提取的隐变量与响应变 量的协方差最大。与主成分相比,p l s r 的隐变量与响应变量有更直接的联系,并 博j :学位论文 且p l s r 的计算较p c r 更快,对于大型数据,这种计算优势更加明显,所以p l s r 在 多元校正中获得了最为广泛的应用。最近,d r u i l h e t 和m o m 的研究表明 2 8 1 ,在某些 假设下,偏最小二乘的隐变量指向分析信号的最大信噪比方向;n a d l e r 和c o i f m a n 的研究【2 9 j 则表明,在理想的无误差或者含误差样本数目为无穷大时,标准化的偏 最小二乘回归系数为净分析信号向量 3 0 j 。这些研究都说明了p l s r 在某些假定下的 最优性和合理性。但是,在校正建模方法以外,在实际的校正过程中还有很多关 键问题如代表性训练集样品的选择、变量选择、信号预处理和模型转移等都会对 校正模型的准确性和稳定性有很大的影响,对这些问题的研究也一直是多元校正 的重要内容。 采样是分析化学的经典问题之一,合理地选择代表性的样品进行分析,进而 得出关于样品总体的可靠的一般性结论,也是分析化学的一个重要目标。多元校 正的目的是建立稳定、可靠、准确的校正模型,进而预测同类未知样品中感兴趣 组分的浓度,因此,选择代表性训练集样品的问题也是关系到多元校正模型是否 具有推广应用价值的一个重大问题。多元校正中的测量变量通常为光谱数据,作 为复杂分析样品的化学和物理性质的函数,通常很难在实验设计中对光谱变量加 以控制,因此标准的实验设计方案常常不能被直接用于多元校正中的样品选择。 但是,实验设计方法的思想和原理对训练集样品选择仍然具有指导作用,可给我 们提供一些样品选择的基本经验。首先,训练样品要代表各种类型的变量组合; 其次,训练样品在所有的变量方向上的变化范围要尽可能地大,但是应限于研究 的范围以内;最后,在前两条经验的基础上,训练样品应尽可能地均匀分布。根 据以上经验,n a e s 3 l j 提出了一种基于聚类分析的选择代表性样品的方法,该方法源 于z e m r o c h 【jr 2 j 的思想,经过改进后更适用于一般的光谱变量为多元共线性的情形。 该方法先对光谱数据进行主成分分析,对主成分进行系统聚类分析,当类的数目 等于预定的训练样品数时,即停止聚类,从每一类中选择一个样品作为训练集样 品。基于类似的思

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论