(概率论与数理统计专业论文)变量选择方法及其在量化的构效关系(qspr)中的应用.pdf_第1页
(概率论与数理统计专业论文)变量选择方法及其在量化的构效关系(qspr)中的应用.pdf_第2页
(概率论与数理统计专业论文)变量选择方法及其在量化的构效关系(qspr)中的应用.pdf_第3页
(概率论与数理统计专业论文)变量选择方法及其在量化的构效关系(qspr)中的应用.pdf_第4页
(概率论与数理统计专业论文)变量选择方法及其在量化的构效关系(qspr)中的应用.pdf_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变量选择方法及其在量化的构效关系( q s p r ) 中的应用 概率论与数理统计专业 研究生彭小令指导教师方开泰,朱允民 在过去的几十年,对量化的结构一分子活性物理性质之间关系,简称 量化的构效关系f q s a r q s p r ) 的研究已经成为现代化学一个重要的分支 q s a r q s p r 研究一个基本的目的是通过一些简单的描述子( 特别是那些单从 分子结构,而不是试验数据的描述子) ,来预报化合物的复杂的物理,化学,生 物性质拓扑指数是一类直接从分子图形得来的数值描述子,它的出现为我们 提供了一种方便的量化分子结构的方法,可以测量一些分子结构的特征,例如 分支,形状和大小然而,随着拓扑指数的发展,化学家们提出了越来越多的 拓扑指数,其定义也变得越来越复杂,这就为q s a r q s p r 的研究带来了新的 问题,如拓扑指数的解释和建模时指数的选择等基于我们在量化的结构一物 理性质之问的关系( q s p r ) 研究中遇到的这些问题,本论文包括了对拓扑指数 的结构上的解释和定义上的归纳,以及变量选择方法在q s p r 问题中的应用 在论文的第一部分,我们从大量的拓扑指数的定义中分解出一些拓扑特征 基的集合不同的特征基的集合代表了分子结构不一样的信息,比如说:分子 键的信息,原子的信息,等等由此,每个特征基的集合都可以张成一个拓扑 信息子空间通过连接性指数x 的拓扑特征基,我们可以用一个新的观点来解 释这个连接性指数) ( 在很多q s a r q s p r 研究中获得巨大成功的原因一那就 足这个) ( 指数在化学键的加权方式上的非人为性然后,我们建议根据不同的 物理性质和化学特性来调整一些拓扑指数赋予特征基上权的大小,从而将一些 现存的拓扑指数进行重组这个重组的方法被应用在第一个z a g r e b 小组指数 m 1 上,改进的肘指数在跟某些性质的相关关系上体现出了很大的进步另一 方面,这些特征基也是拓扑信息空间的基它们足拓扑指数的原始信息来源, 而且比拓扑指数更容易对分子结构进行解释我们将拓扑特征基的集合看作是 第i i 页 变量选择方法及其在量化的构效关系( q s p r ) 中的应用 一个一个块变量,通过正交块变量的方法,就可以把这些特征基集合所代表的 不同的信息空间的最有用的信息提取出来只对少量的新的正交块变量的回归 结果显示,建立在这些块变量上的模型在对化学性质的拟合和预报上比一些早 前的结果都有显著的提高同时,块变量是对原始线性空问的线性投影,因此 在模型的解释上面也更加容易 论文的第二部分是关于变量选择及其在量化的构效关系当中的应用一 种比较新的基于非凹的惩罚最小二乘的变量选择的方法被用于描述和预报5 3 0 个烷烃和它们的沸点之间的关系与逐步回归法和改进的最小绝对缩减算子 ( l a s s o ) 相比较,这种方法简单,快速,因而能与一些流行的变量选择方法媲 美我们收集了碳原子个数从2 到1 0 的所有饱和烷烃的沸点值,并计算了1 2 8 个常用的拓扑指数作为备选变量作为变量选择的结果,只有1 2 个变量从9 5 个预处理后的变量中选出,但是建立在这1 2 个变量的q s p r 模型仍具有令人 满意的拟合和预报效果 在论文的最后部分,我们提出了用二阶熔合的惩罚最小二乘方法来分析中 国当归与其它相关伞形药草的高效液相色谱指纹图谱这种方法不仅考虑了对 系数的惩罚,还考虑了对相邻系数问差异的的惩罚,因此适用于变量个数远远 大于样本个数且变量之间有顺序的情况一种归纳的简单快速的迭代算法被提 出并用来计算所有二阶熔合的惩罚最小二乘我们把这个方法用在了4 6 个中 草药的指纹图谱分析上并得到了一些初步的结论 关键词:变量选择,拓扑特征基,块变量,惩罚的最t j 、- - 乘,变量熔合 第i i i 页 v a r i a b l es e l e c t i o nm e t h o d sa n dt h e i ra p p l i c a t i o n si n q u a n t i t a t i v es t r u c t u r e - p r o p e r t yr e l a t i o n s h i p ( q s p r ) a b s t r a c t q u a n t i t a t i v es t r u c t u r e - a c t i v i t y p r o p e r t yr e l a t i o n s h i p s ( q s a r q s p r ) h a s b e c o m ea ni m p o r t a n tb r a n c ho fm o d e r nc h e m i s t r yi np a s td e c a d e s af u n d a - m e n t a lg o a lo fq s a r q s p rs t u d i e si st op r e d i c tc o m p l e xp h y s i c a l ,c h e m i c a l , b i o l o g i c a l ,a n dt e c h n o l o g i c a lp r o p e r t i e so fc h e m i c a l sf r o ms i m p l e rd e s c r i p t o m , p r e f e r a b l yt h o s ec a l c u l a t e ds o l e l yf r o mm o l e c u l a rs t r u c t u r e t o p o l o g i c a li n d i c e s ( t i s ) a r es u c hn u m e r i c a ld e s c r i p t o r s t h e yp r o v i d eac o n v e n i e n ta n di n e x p e n - s i v em e a n so fq u a n t i f y i n gm o l e c u l a rs t r u c t u r e ,m e a s u r i n gm o l e c u l a rc h a r a c t e r s s u c ha 8b r a n c h i n g ,s h a p ea n ds i z e t os o l v et h eq s p rp r o b l e m sw em e t ,t h i s t h e s i si n d u d e st h eg e n e r a l i z a t i o na n ds t r u c t u r a li n t e r p r e t a t i o no ft o p o l o g i c a l i n d i c e sa n dt h e i ra p p l i c a t i o n so fv a r i a b l es e l e c t i o nm e t h o d si nq s p r i nt h ef i r s tp a r to ft h i st h e s i s ,w ed e c o m p o s eal a r g ea m o u n to ff a m o u s t o p o l o g i c a li n d i c e si n t os e t so ft o p o l o g i c a lc h a r a c t e rb a s e s ,d i f f e r e n ts e t so fc h a r - a c t e rb a s e si n d i c a t ed i f f e r e n ti n f o r m a t i o no fm o l e c u l a rs t r u c t u r e s ,s u c ha sb o n d , a t o m ,e t c t h u s ,e a c hc h a r a c t e rb a s e sw i l le x p a n dt oas u b s p a c ei nt h ew h o l e t o p o l o g i c a li n f o r m a t i o ns p a c e u s i n gt h et o p o l o g i c a lc h a r a c t e rb a s e so fc o n n e c _ t i v i t yi n d e x ) ( ,w et r i e dt oe x p l a i nt h eg r e a ts u c c e s so ft h ec o n n e c t i v i t yi n d e x o nm a n yq s a ro rq s p rr e s e a r c h e si nan e wp o i n to fv i e w t h ei m p e r s o n a l i t yo fx sb o n dw e i g h t i n gf o r m u l a t h e n ,i ti ss u g g e s t e dt or e c o m p o s es o m e t o p o l o g i c a li n d i c e sb ya d j u s t i n gt h ew e i g h t su p o nc h a r a c t e rb a s e sa c c o r d i n gt o d i f f e r e n tp r o p e r t i e s a c t i v i t i e s t i f f si d e ao fr e c o m p o s i t i o ni sa p p l i e dt ot h ef i r s t z a g r e bg r o u pi n d e x 尬a n dl a r g ei m p r o v e m e n th a sb e e na c h i e v e d o nt h eo t h e r h a n d ,s i n c et h et o p o l o g i c a lc h a r a c t e rb a s e sa r cb a s e so ft h ei n f o r m a t i o ns p a c e w h i c hp r o v i d eo r i g i n a ln a t u r a li n f o r m a t i o nf o rt o p o l o g i c a li n d i c e s ,t h e ym a y 第i v 页变量选择方法及其在量化的构效关系( q s p r ) 中的应用 h a v em o r ed i r e c ts t r u c t u r a lo rp h y s i c a li n t e r p r e t a t i o na n dp r o d u c es i g n i f i c a n t l y m o d e l st h a nt h e i rm a p p i n g s o r i g i n a lt o p o l o g i c a li n d i c e s u s i n gt h em e t h o d o fo r t h o g o n a lb l o c kv a r i a b l e s ,t h ec h a r a c t e rb a s es e t sa r eb l o c k e dt oe x t r a c t t h em o s tu s e f u li n f o r m a t i o nf r o md i f f e r e n ti n f o r m a t i o ns p a c e s t h er e g r e s s i o n o fo n l yaf e wn e wo r t h o g n n a lb l o c kv a r i a b l e ss h o w sl a r g ei m p r o v e m e n t sb o t h i nf i t t i n ga n dp r e d i c t i o na b i h t yo ft h ec o r r e l a t i o nm o d e l a tt h es a m et i m e , b l o c kv a r i a b l e sa r ct h el i n e a rp r o j e c t i o u so fo r i g i n a li n f o r m a t i o ns p a c e sw h i c h b r i n ge a s i l yi n t e r p r e t a t i o nf o rt h eq s p rm o d e l s t h es e c o n dp a r to fm yt h e - s i si sa b o u tt h ev a r i a b l es e l e c t i o nm e t h o d s ,t h e i ra p p l i c a t i o n si nq s p ra n d s o m ei m p r o v e m e n t so ft h em e t h o d s an e wv a r i a b l es e l e c t i o na p p r o a c hb a s e d o nn o n c o n c a v ep e n a l i z e dl e a s ts q u a r e si se m p l o y e df o ri n t e r p r e t a t i o na n dp r e - d i c t i o no fb o i l i n gp o i n t s ( b p s ) o f5 3 0a l k a n e s t h eg o o dp e r f o r m a n c e so ft h e p r o p o s e dm e t h o d ,c o m p a r e dw i t hs t e p w i s er e g r e s s i o na n dt h ei m p r o v e dl e a s t a b s o l u t es h r i n k a g ea n ds e l e c t i o no p e r a t o r ( l a s s o ) ,a l o n gw i t hi t ss i m p h c i t y a n df a s ts p e e d ,m a k e si tav a l i dc o m p e t i t o rt ot h ee x i s t i n gv a r i a b l es e l e c t i o n m e t h o d s a l lt h e5 3 0s a t u r a t e dh y d r o c a r b o n sw i t hc a r b o nn u m b e r sf r o m2t o 1 0a n d1 2 8c o m m o nt o p o l o g i c a li n d i c e sa r et a k e ni n t oa c c o u n t a sar e s u l t , o n l y1 2t o p o l o g i c a li n d i c e sa r es e l e c t e df r o m9 5p r e t r e a t e do n e sb u tt h c ys t i l l p r e s e n tas a t i s f y i n gf i t t i n ga n dp r e d i c t i o ne f f e c t s i nt h el a s tp a r to ft h et h e - s i s ,t h es e c o n d - o r d e rf u s e dp e n a l i z e dl e a s t s q u a r e si sp r o p o s e df o rd i s t i n g u i s h i n g c h i n e s ea n g e l i c af r o mr e l a t e du m b e l l i f e r a ch e r b su s i n gh i g h - p e r f o r m a n c el i q - u i dc h r o m a t o g r a p h i cf i n g e r p r i n t s t h i sm e t h o dc o n s i d e r e db o t hp e n a l i z a t i o n o nt h ec o e f f i c i e n t sa n dp e n a l i z a t i o no i lt h e i rd i f f e r e n c e s a ni t e r a t i v ea l g o r i t h m i sd e d u c e da n di tc a nb ev i e w e da sag e n e r a la l g o r i t h mf o ra l lt h es e c o n d - o r d e r f u s e dp e n a l i z e dl e a s t s q u a r e s k e y w o r d s :v a r i a b l es e l e c t i o n ,t o p o l o g i c a lc h a r a c t e rb a s e s ,b l o c kv a r i a b l e s p e n a l i z e dl e a s t - s q u a r e s ,v a r i a b l ef u s i o n 第一章绪论 随着现在科学技术的发展,化学家们能够比较容易地得到大量的数据,怎 样从储存的大量数据中获取重要的,有用的信息逐渐成为了现代化学中一个新 的问题现今,统计方法被成功地用在各种各样的化学问题中,用统计方法来 解决化学问题的学科被统称成为化学计量学”对于统计学家们来说,他 们的任务主要是提出和发展统计方法,并将这些方法用在相关的化学数据上, 发掘出隐藏在这些不断增长的数据中的化学信息在不同的化学问题中,对量 化的构效关系( q s p r q s a r ) 的研究在最近几十年逐渐成为了现代化学的一 个重要分支q s p r q s a r 研究的主要目的是用化合物的分子结构去预测化 合物的复杂的物理,化学或生物性质因此,q s p r q s a r 研究中的一个基 本的问题是怎样从化合物的分子结构构造出一些有效的分子描述子很多的化 学家一直以来致力于从化合物的分子图提出各种各样的数学描述子,即是所谓 的拓扑指数随着拓扑指数的发展,他们的定义变得越来越复杂,越来越数学 化,这导致了这些指数对于分子结构的难以解释最近,对拓扑指数的解释这 个主题也受到了越来越多的关注一些著名的研究q s p r q s a r 问题的化学 家在这方法做了很多努力,例如b a s a ke ta 1 ( 2 0 0 0 ) 和r a n d i 6 ( 2 0 0 1 ) 另一方 面,怎样从如此多的备选描述子中选出合适的拓扑指数作为模型中的变量同样 是q s p r q s a r 建模中的一个非常重要的问题一些传统的或现代的统计方法 都被介绍到这个领域以建立简单且有效的q s p a q s a r 模型( x ua n dz h a n g ( 2 0 0 1 ) ) 我的论文主要围绕着q s p r 研究中的这两个基本问题其中一个是 对拓扑指数的归纳和结构上的解释,另一个则是变量选择方法( 特别是哪些基 于惩罚的最小二乘的方法) 在q s p r 研究中的应用这样我们就可以用这些选 好的变量( 拓扑指数) 建立简单的,容易解释的q s p r 模型 在这一章的前半部分,我们将介绍q s a r q s p r 研究和拓扑指数的相关 化学背景接下来,我们会对一些常用的统计上的变量选择的方法做一个简要 的回顾 第2 页第一章绪论 1 1q s a r q s p r 研究和拓扑指数 姐1 1 什么是q s a r q s p r ? “直接从分子结构预报有机物的物理,生物性质是理论和计算化学中一个 重要的,尚未解决的问题”( i v a n c i u c 和b a l a b a n ( 1 9 9 9 ) ) 这些从实验中测得 的物理性质或是化学性质,几乎都是由量化的数字来表达例如沸点,折射率, 转移状态能量,等等对这些性质的建模也就是寻求存在于化合物的性质和分 子结构之间的关系面对分子建模,我们遇到的第一个富有挑战性的问题是一 这些性质都是以数字的形式来表现,而分子结构却不是解决这个问题的方法 是使用分子描述子( 即代表不同分子特征信息的数- 7 ) 来描述待研究的量化的 性质这些模型就是所谓的量化的结构一化学活性之间的关系( q s a r ) 和量化 的结构一化学活性之间的关系( q s p r ) 定义的不同依赖于我们研究的性质是 生物上的还是物理上的性质 从我们的角度来看,q s a r q s p r 研究的重要任务是要利用统计上的或 其他的一些方法建立某种分子活性物理性质和分子描述子之问的关系: 化学活性物理性质= ,( 分子结构) = ,( 分子描述予) 我们必须注意到,能够描述这些关系的真实的模型可能会很复杂于是通常 我们会用某些近似的模型( 元模型) 来逼近这个真实的模型元模型也可以被 看成是模型的模型”,模型的形式一般是由我们建模所用的方法来确定 在q s a r q s p r 建模中常用的方法好多都是线性的方法,例如标准最z j 、- - 乘 ( o l s ) ,主成分回归( p c r ) ( m a s s y ( 1 9 6 5 ) ) 。偏最小二乘( p l s ) ( w o l d ( 1 9 7 5 ) ) 以及岭回归( h o c r la n dk e n n a r d ( 1 9 7 0 ) ) 其它的一些方法则根据各自的规则 建立一些非线性的模型,如投影寻踪回归( p p r ) ( f r i c d m g na n dt u k e y ( 1 9 7 4 ) ) 和人工神经网络( m c c u l l o c ha n dp i t t s ( 1 9 4 3 ) ,w c r b o s ( 1 9 7 4 ) ) 本论文中用到 的主要方法都是基于线性模型 总的说来,对q s a r q s p r 问题的研究可以归结为下面两个步骤: 1 1q s a r q s p r 研究和拓扑指数第3 页 第j 步一设计和产生分子描述子; 第2 步一用适当的分子描述子建立相应的q s a r q s p r 模型 结构描述子和联系分子结构与分子的各种性质的数学模型的发展对q s a r q s p r 模型的广泛应用起着主要的作用q s a r q s p r 方法的成功是因为其暗含了 结构决定性质,并可以不需要合成和实验测试就能够估计出新的化合物的性 质的可能性在q s a r q s p r 研究中一个基本的假设是化合物的所有性质 ( 物理的,化学的或生物的) 一定与它的分子结构密切相关基于这个假设, q s p r q s a r 的研究在最近的几十年得到了长足的发展 1 1 2 拓扑指数和图论 q s p r q s a r 研究的第一步也是最根本的一步就是数字特征化各种各样 的化学分子,只有这样做才可以创建模型以描述化合物的不同的化学或生物活 性( 性质) 与它们的分子结构之间的关系大量的理论方法被用来量化化学结 构,从简单的一些方法如图论( h u r a r y ( 1 9 6 9 ) ) 或分子力学( p e a _ r l m a ne ta l 。 ( 1 9 9 5 ) ) 到复杂的量子半参模型( k a r e l s o ne ta 1 ( 1 9 9 6 ) ) 等另方面,一些化 合物的活性与它们的某些容易解释的物理化学性质( 例如1 一辛醇水分解系 数) 直接地相关,因而这些性质也被化学家用做分子描述子在最近的几十年 中,化学家们生成了大量的实验的或计算的分子描述子用于q s a r q s p r 的 研究化学分子的任何一个描述子,无论是实验得到的还是计算出来的,都和 一个实数相对应,这样就可以通过实数的大小与某个特殊的性质建立数学上的 联系在我们得到了这些分子描述予以后,一个自然的想法则是利用统计的方 法来寻找这些数字化的性质和描述子之间的关系 从w i e n e r ( 1 9 4 7 ) 发明第一个拓扑指数开始,拓扑指数这种分子描述子开 始逐渐被用在了q s a r q s p r 研究中虽然传统的物理化学( 实验的) 描述子 对于庞大数量的化合物来说不容易得到,我们却能计算出所有存在的,新的和 未曾产生的化学分子的拓扑指数比较于其它类型的结构描述子,如几何的或 第4 页第一章绪论 量子的描述予,拓扑指数具有一些重要的优势,因为它们可以从分子图中容易 地得到并且它们提供了一种简易的衡量分子的分支,形状和大小的方法b a s a k e ta 】( 1 9 9 9 ) 认为拓扑指数应是q s a r q s p r 研究中首要的选择 1 9 7 1 年,h o s o y a 定义拓扑指数为基于相应分子图的某种“拓扑特征i 的分 子结构的数字描述子( i v a a c i u c 和b a l a b a l l ( 1 9 9 9 ) ) 提出拓扑指数的另一个原 因是用它来量化地评估化学结构之间的相似和相异的程度因而对于大部分的 化学家来说,拓扑指数的退化程度也是评价拓扑指数好坏的一项指标当从不 同的分子图得到的拓扑指数值是相等的时候,我们称这个拓扑指数是退化的 因为从相同的分子图必须得到同一个拓扑指数值,因此,拓扑指数应该是分子 图的不变量,即拓扑指数的值应该和分子图的标注方式无关通过分子图,对分 子的描述变得十分简单;分子中的原子表现为平面中的点,分子中的化学键则 是链接这些点之间的边基于这种原子和化学键的方式,再利用图论的基本知 识,我们可以很容易地将分子结构转用矩阵来表达( c v e t k o v i de ta 1 ( 1 9 9 5 ) ) 分 子图矩阵是计算拓扑指数的基础,基于分子图的矩阵表达,计算矩阵多项式, 秩。路径,游动和距离( 这些概念随后会介绍) 变得十分地容易如今,图论已 经成为了数字特征化分子结构的一种标准方法,并被广泛地用于产生量化的构 效关系模型中的分子描述子在论文的下面部分将给出图论的一些基本概念, 然后我们将介绍如何通过图论得到一些重要的拓扑指数 在图论中,图g = g ( k e ) 是一个包括了两个集合v = v ( v ) 和e = e ( c ) 的有序对集合e 中的元素定义了集合y 中元素的二元关系按照图论的说 法,集合y 中的元素都叫做顶点,而集合e 中的元素则是连接这些顶点的边 顶点的个数代表了集合v ( v ) 中元素的个数,即n = i v ( c ) i ;边的个数m 由集合e ( a ) 中元素的个数决定,即m = i e ( g ) i 图的顶点从1 到进行标 识,v ( a ) = ,地, ,连接顶点蜥和的边则由e ,表示如果存在一 条边8 “连接这两个顶点,则称图g 中的两个顶点和岣是相邻的例如,考虑 图1 1 中的( 8 ) ,它有4 个顶点和3 条边,顶点的集合y ( n ) = l ,屹,地,峋 , 边的集合是且( o ) = ( e l e 2 函e 3 。4 ( a ) 图中的顶点v 2 和顶点1 2 3 是相邻的 1 1q s a r q s p r 研究和拓扑指数第5 页 图g 中的一个长为n 的游动是一个边的有限集合 e - ,e 2 ,e 。) ,其中两个 连续的边( 岛,8 ) 是相邻的在个游动中的任何一条边可以出现不止一次, 然而在一个路径中的每条边只能出现一次两个顶点坼和吩之间的距离白 则是这两个顶点之间最短路径所包括的边的个数 hh h 一_ l h il h ( 一c h li hh ( b )( c ) 图1 1 :化学分子图 口 化学分子图足体现化合物分子结构的无向连接图,在一个分子图中,顶点 对应着分子式中的原子,边对应着原子间的化学键一个分子的化学结构在分 子图中表现为原子间的化学键的连接方式例如,环丁烷( 图1 1 中的( b ) ) 就 可以用( c ) 来表现若非另行说明,有机化学家们一般会将分子式中的氢原子 忽略,这样得到的分子图叫做略氢图,它只包括非氢的原子这样,环丁烷的 结构式( b ) 可以由( d ) 中的只有碳原子的一个“骨架图”来体现自然界中的 大部分的化学分子中除了碳,氢两种原子外,还有其它的杂原子,化学键的情 况也是多种多样,十分复杂在本论文中,我们只考虑一个叫做饱和烷烃的特 殊的子集,在这个集合里,所有的化学分子只有碳和氢两种原子,化学键也都 是单键因而在饱和烷烃所对应的分子图中,所有的顶点都是碳原子,所有的 边都指碳一碳f c c ) 单键 虽然我们已经有了分子图来表现化合物,计算拓扑指数等描述子仍然需要 第6 页第一章绪论 对这些分子图做一个量化的转变这个转换可以由不同的图的矩阵来实现邻 接矩阵和距离矩阵是两种基本的,常用的图的矩阵 个含有个顶点的图g 的邻接矩阵是一个n n 的对称矩阵,它的 每一个元素 a q 定义为 = 1 瓮兰;冀乏;嚣 这里的e ( g ) 代表了图g 中边的集合在邻接矩阵a ( g ) 中,第i 行或第 列 对应着图g 中的第i 个顶点址a ( g ) 中值是1 的元素表示对应的两个顶点 相连a ( g ) 中第i 行或第i 列的元素之和是第i 个顶点的顶点度,即 nn q = 【a 玎= 呲, j = 1j = 1 3 4 ( e ) 图1 2 :1 一甲基1 - 2 - p r e o p y l 环丁烷 作为例子,我们在图1 2 中给出了1 一甲基1 - 2 一p r c o p y l 环丁烷的分子图 ( c ) ,其中图的顶点从1 标注到8 图( e ) 的邻接矩阵a ( e ) 如下: 1 1q s a r q s p r 研究和拓扑指数第7 页 a ( e ) 对于一个给定的顶点峨,和它相关的信息可以从它的邻接矩阵a ( g ) 的对应行 或列得到例如,要知道和图( c ) 中第5 个顶点相邻接的点,可以检查a ( e ) 的 第5 行( 或者第5 列) 我们发现 a ( e ) 】5 2 = 1 , a ( e ) k 4 = 1 和【a ( e ) k = 1 , 因此知道顶点v 5 与顶点1 2 ,地,冼相邻,并且顶点度是3 一个含有j v 个顶点的图g 的距离矩阵d = d ( g ) 足也一个n n 的对 称矩阵,它的每一个元素 d 】玎定义为 盼 罴兰; 这里d i j 图中顶点虬和顶点吩之问的距离我们仍然用分子图( e ) 举例,它的 o o 0 0 o 0 1 o o o 0 o o 1 0 1 o 0 0 0 1 o 1 0 0 1 0 1 0 1 o o o 0 l 0 l o o 0 0 l 0 1 0 o o 0 l 0 1 o 1 o o o o 1 0 0 o o 0 o l 2 3 4 5 6 7 8 第8 页第一章绪论 距离矩阵d ( e ) 是 d ( e ) = 距离矩阵中的元素 d ( e ) z ,6 = 2 表示顶点忱和2 6 之间的最短路径的长 度是2 ,即这两个顶点之问的最短路径足由两条边构成距离矩阵是计算很 多图不变量和拓扑指数的基础( w i e n e r ( 1 9 4 7 ) ,b o n c h e v 和t r i n a j s t i d ( 1 9 7 7 ) , b a l a b a n ( 1 9 8 2 ) ) 关于距离矩阵本身的计算,有一些现成的算法,如t h e m o h a r 和p i s a n s k i ( 1 9 8 8 ) 在图1 3 的( f ) 中标注了从第1 到第8 条边,由此我们可以得到1 一甲基 1 - 2 一p r c o p y l 环丁烷的线图( 图1 3 的( g ) ) ,l i ( e ) = g 在图( g ) 中顶点也是从 1 到8 ,其中的每一个顶点对应于( f ) 中相同标注的边 一个图g 的边一邻接矩阵等同于g 的线图的邻接矩阵,e a ( g ) = a ( l i ( g ) ) 和计算顶点度一样,我们也可以从边一邻接矩阵得到边度,边e ;的度日为: 日= e a u = e a j 。 jj 化学家们从边一邻接矩阵e a 发展了不少的结构描述子( g u t m a n 和e s t r a d a 5 4 5 4 3 2 1 o 4 3 4 3 2 1 0 1 3 2 3 2 1 0 1 2 2 1 2 1 0 1 2 3 3 2 1 o l 2 3 4 2 l o l 2 3 4 5 1 o 1 2 1 2 3 4 o l 2 3 2 3 4 5 1 2 3 4 5 6 7 8 驵1q s a r q s p r 研究和拓扑指数第9 页 义。! 八y 2 ii l l 1 _ j ( 1 9 9 6 ) ) 3 ( f ) 1 3 ( g ) 图1 3 :1 一甲基1 - 2 p r e o p y l 环丁烷的边、线图 基于化学分子图,大量的拓扑指数可通过下面两个步骤产生:首先,从各 种各样的图的矩阵中获得许多的描述分子结构的数值化特征,如距离,游动,路 径的计数;然后,将一些数学算子应用到这些特征上就得到了拓扑指数用这种 方法,化学家和数学家们提出了越来越多的拓扑指数,用于描述分子结构的不 同方面在接下来的部分,我们将给出一些著名的拓扑指数的定义和计算方法 w i e n e r 指数w i e n e r 指数w 最初定义为路径和,即在一个分子中所有原子 之问的键的个数之和( w i e n e r ( 1 9 4 7 ) ) 不久以后,h o s o y a ( 1 9 7 1 ) 给出了该指 数基于距离矩阵d 的新的定义;距离矩阵d 的上三角或下三角的元素值之和 这里我们给出了怎样从图1 2 中的化学分子图( e ) 计算1 一甲基1 2 一p r c o p y l 环 丁烷的w i e n e r 指数的值将上面的定义直接应用到图( e ) 的距离矩阵d ( e ) , 一” d 。岗 。缸 1 1 回 第1 0 页第一章绪论 很容易就得到了w i c n c r 指数的值 ( e ) =1 + 2 + 3 + 2 + 3 + 4 + 5 + 1 + 2 + 1 + 2 + 3 + 4 + 1 + 2 + 3 + 4 + 5 + l + 2 + 3 + 4 + 1 + 2 + 3 + 1 + 2 + 1 = 6 8 w i e n e r 指数w 的定义也可以写成另外一种形式 w = i g 其中g i 足分子图中长度为i 的路径的计数w i e n e r 指数的定义说明它反应的 屉关于路径的信息 z a g r e b 小组指数大约在1 9 7 5 年,克罗地亚的首都z a g r c b 有一群化学家热 衷于将图论应用在化学上他们基于分子图的邻接矩阵提出了两个拓扑指数, 称为z a g r e b 小组指数: m 1 = 砰 t = l = 仇 a l le d o e 5 因为第i 个顶点的顶点度7 3 i 等于【a 2 】l i ,这两个指数也可以通过邻接矩阵表现 出来,即: _ v m 1 = a 2 】“ a 2 “ 扛= 1 1 1q s a r q s p r 研究和拓扑指数 第1 1 页 m s 一f a 2 】。 a 2 m a l e d 9 e 。 根据上面的公式,我们可以很容易地计算出1 一甲基1 - 2 一p r e o p y l 环丁烷( e ) 的 这两个拓扑指数的值: 以( e ) = 3 6a n d 如( e ) = 4 0 分子连接性指数这个指数由的定义与第二个z a g r e b 小组指数m s 的定义很 接近,但却是一个非常成功的拓扑指数,它被广泛地用在了q s a r q s p r 的 研究中,已为大多数化学家所接受这个所谓的x 指数足在1 9 7 5 年被r a n d i d 提出,其定义为: ) ( = ( 仇v j ) 。1 2 o “e d g e s 由于这个指数的定义是所有边的两头顶点度乘积开方再求逆,因而具有很低的 退化度除此之外,这个指数与很多的物理和化学性质都显示出了很强的相关 性( k i e r 和h a l l ( 1 9 7 6 ,1 9 8 6 ) ) 按照这个定义,分子图越紧凑,x 指数的值越 小我们也可根据这个定义容易地得到1 - 甲基1 - 2 - p r e o p y l 环丁烷( e ) 的对应 的x 指数的值,x ( e ) = 3 8 4 2 5 从上面的定义中我们不难看出,拓扑指数是基于对应分子图的某个拓扑特 征的数字描述子比如说,第一个z a g r e b 小组指数m x 就是所有顶点的顶点度 的甲方和;而第二个z a g r c b 小组指数尬则可以被看作边的贡献的某种组合, 其中每条边的贡献的多少由这条边两端的顶点度的乘积决定与二个z a g r c b 小组指数a 如类似,连接性指数x 考虑了边的贡献,不同的是它用顶点度乘积 开方再求逆代替了m s 指数对边的贡献的赋值至于w i e n e r 指数w ,它与分 子图中路径的长度密切相关,路径越长,加再上面的权就越大各种各样的图 的特征再构造拓扑指数的过程中扮演着重要的角色这些图的特征如顶点的种 类( 根据顶点度的情况) ,不同的路径( 根据路径的长度) ,或边的种类( 根据边 的两端的顶点度的不同) 等等,再本论文中我们统称为拓扑特征,并定义这些 特征在分子图中的计数( 出现次数) 为拓扑特征基我们将再第二章详细讨论 第1 2 页第一章绪论 拓扑特征基在q s p r 研究中的应用 高阶分子连接性指数如果把边看作是长度为l 的路径,再将分子连接 性指数的定义扩展到长度为k 的路径,我们就可以得到一些高阶的分子连接陛 指数,其定义由k i c re ta 1 ( 1 9 7 5 ) 第一次给出对于考虑了路径长度为k 的子 图,相应的尼阶连接性指数的定义如下; x ,= ( v v j 仇) 。1 2 这里的k - e d g c 指长度为k 的路径对于不同的k 我们可以得到不同的拓扑指 数,它们的值不同,定义的方式却相似,这样我们可以得到一系列的高阶连接 性指数作为计算高阶连接性指数的一个例子,我们考虑1 - 甲基l 一2 一p r c o p y l 环丁烷( e ) 的4 一阶连接性指数4 在图( e ) 中共有6 条长度为4 的路径: 1 - 2 3 4 5 ,1 - 2 5 6 7 ,2 3 4 5 6 ,2 - 5 6 _ 7 8 ,3 - 4 - 5 6 7 ,4 - 5 6 7 8 然后我们就可以 通过每条路径上的所有顶点度计算4 ( e ) , 4 x p ( e ) = ( 1 3 2 2 3 ) 一1 2 十( 1x3 3 2 2 ) 一1 2 + ( 3x2 2 3 2 ) 一1 2 十( 3x3 2x2 1 ) 一1 2 + ( 2 2 3 2 2 ) 一1 2 十( 2 2 3 2 1 ) 一1 2 = 0 8 8 2 0 随着人们对拓扑指数优点的逐渐认识和接受,大量这样的描述子源源不断 地被化学家们提出,特别是在最近的2 0 年相关的文献如m i h a l i 6 和t r i n a j s t i d ( 1 9 9 2 ) ,b a s a k 和g u t e ( 1 9 9 7 ) ,等等到目前为止,已经提出了超过4 0 0 种 的不同的拓扑指数然而,这种对拓扑指数的不加选择地制造”为它在化学 中的应用带来了新的困难其结果往往是大部分的拓扑指数与任何性质的相关 性都很差,它们的定义也很是复杂,令人费解究竟什么样的拓扑指数才能算 作是“好”的拓扑指数呢? 粗略地讲,一个好的拓扑指数应该比现有的多数拓 扑指数能够得到更加准确的q s a r q s p r 模型( 对于至少一种性质) ,或者在 1 2 线性回归中的变量选择模型选择问题第1 3 页 分子结构上有更加直观的解释自从这大量的拓扑指数被提出,大多数的化学 家只足计算它们的值用于建模,却很少再回过头去审视它们的定义作为选择它 们的内在因素在本论文中,我们探索了一些著名的拓扑指数的定义,把它们 分解成特征基通过特征基我们就可以解释为什么有些拓扑指数比别的成功, 因而我们可以改进某些现有的拓扑指数,使得它们不仅在结构上有更直观的解 释,而且在与不只一种的性质都有很高的相关性我们将在第二章中详细地陈 述这些观点 另一方面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论