医学专业 生物信息学第5章

更新时间:2023-05-13 22:15:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

医学专业 生物信息学

第五章 分子进化分析Molecular Evolution Analysis 哈尔滨医科大学 李霞

医学专业 生物信息学

第一节 引 言 分子进化开始于20世纪60年代,近20年来由于分子遗传学 资料的迅速积累,成为计算生物学和生物信息学等新兴学科 的重要组成部分。 尤其人类基因组测序后,推动了分子进化的进一步发展,序 列保守性,基因表达和网络的进化等研究内容不断的出现在 最新的研究中,充实了生物信息学的研究范围。

医学专业 生物信息学

第二节 系统发生分析与重建一、核苷酸置换模型及氨基酸置换模型(一)DNA序列进化分析DNA序列的进化演变比蛋白质序列的演变更复杂, 因为有多种多样的DNA区域,如蛋白质编码区、非编 码区、外显子、内含子、侧翼区、重复DNA序列和插 入序列等。因此,弄清所研究的DNA类型和功能是十 分重要的。即便我们单独考虑蛋白质编码区,密码子 第一、二和三位的核苷酸替代式样也不尽相同。何况, 某些区比其他区更易受到自然选择的影响,使得DNA 的不同区域呈现不同的进化模式。

医学专业 生物信息学

1. 两个序列间的核苷酸差异对于一种同源的核酸分子来说,它在亲缘关系越近 的生物之间差异就越小,相反差异 就越大,即两同源分 子分歧的时间与它们之间的序列差异成正比。 同一条祖先序列传衍的两条后裔序列,它们的核苷 酸差异随时间而增加。一个简便的描述序列分歧大小的 测度是两条后裔序列中不同核苷酸位点的比例。 以下,我们称此估计为核苷酸间的p距离

p nd / n

医学专业 生物信息学

尽管总核苷酸替代能用公式计算,但我们常常也需要知道 两个序列间(即序列和)不同核苷酸对的频率。在每一序 列中,有4种不同核苷酸(A,T,C,G),故两条序列相应位 点配对时可有16种不同类型的核苷酸对表5-1类型 相同核苷酸对 频率 转换型对 频率 颠换型对 频率 AA TT

16种不同类型的核苷酸对核苷酸对 CC GG 总数

O1AG

O2GA

O3TC

O4CT

O总数

P 11AT

P 12TA

P21AC

P22CA

P总数

Q11TG

Q12GT

Q21CG

Q22GC 总数

频率

Q31

Q32

Q41

Q42

Q

医学专业 生物信息学

如果4种核苷酸间的替代是随机发生的,当P很小时,Q约 为P的2倍。实际上,通常转换比颠换出现更频繁。因此, P将大于Q/2。当序列间的分歧度低时,转换对颠换的比 值(R),常称为转换/颠换比,能用下式估计:

R P/Q核苷酸替代数的估计常常建立在以下假设基础上,即每个 序列的核苷酸频率处于平衡态,且此频率不随时间而变化。 当每个序列的核苷酸频率处于平衡时,我们期望表5-1中的、 P P 、 P21 P22 、 Q11 Q12 、 Q21 Q22 、 Q31 Q32 以及 11 12 Q41 Q42 。因此,可用零假设去检验核苷酸频率是否处于 平衡态。

医学专业 生物信息学

2. 核苷酸替代数的估计欲估计

核苷酸替代数,必须应用核苷酸替代的数学模型。 为此,许多学者提出了不同的替代模型,其中一些模型以 替代率矩阵的形式列在表中。表5-2A A T C G T C G α α α -A T C G (A)Jukes-Cantor 模型 -α α α -α α α -α α α (B)Kimurar 模型 A T C G -β β α β -α β β α -β α β β -A T C G -β θ β θ α θ2 2

核苷酸替代模型A -α gA α gA α gA T α gT -α gT α gT C α gC α gC -α gC G α gG α gG α gG -(C)Equal-input 模型

(D)Tamura 模型 β θ -α θ β θ2

β θ α θ -β θ

1 1

α θ β θ β θ --

1 1 1

2

2

2

1

医学专业 生物信息学

[例5.1] 人与猕猴的细胞色素b基因间的 核苷酸替代数 动物线粒体DNA中的细胞色素b基因是高度保守的,因此 常被用于研究亲缘关系较远的动物的进化关系。表5-3示出 了人与猕猴的细胞色素b基因的10种不同类型核苷酸对的 数目,并分别以密码子第1、2和3位点列出。表5-3 人与猕猴的细胞色素b基因的10种不同类型核苷酸对

转换 密码子的位置 第一 第二 第三 合计 TC 21 20 60 101 AG 22 3 16 41 TA 5 6 6 17

颠换 TG 1 1 5 7 CA 5 0 49 54 CG 4 2 2 8 TT 68 140 11 219

相同对 CC 93 87 122 302 AA 100 71 102 273 GG 56 45 2 103

总数

nd58 32 138 228

n375 375 375 1125

医学专业 生物信息学

(二)氨基酸序列进化分析

1. 氨基酸差异和不同氨基酸的比例蛋白质或肽链的进化演变研究开始于两个或多个氨基酸 序列的比较。图5-1显示了人、马、牛、袋鼠、蝾螈和鲤 鱼的血红蛋白α链的氨基酸序列。图中,不同的氨基酸分 别用不同的单字母代表。图5-1 六种脊椎动物血红蛋白α链的氨基酸序列

医学专业 生物信息学

表5-4 不同脊椎动物血红蛋白α 链中不同氨基酸的数目(上对角线) 以及不同氨基酸的比例(下对角线)

人人 马 牛 袋鼠 蝾螈 鲤鱼

马17

牛17 17 0.179 0.450 0.464

袋鼠26 29 25 0.471 0.507

蝾螈61 66 63 66 0.529

鲤鱼68 67 65 71 74

0.121 0.121 0.186 0.436 0.486

0.121 0.207 0.471 0.479

注:计算排除了缺失和插入,使用的氨基酸总数为140。

在图中所给出的例子中,删除所有间隔后可比较的总氨基 酸位点数为140。因此,仕此例中。值出现在表中对角线 上部,可以很容易地计算出,列于对角线下部。

医学专业 生物信息学

当所比较的物种亲缘关系很远时(如人和鲤鱼),值 较大,而当亲缘关系较近的物种比较时(如人和马),值 较小。这说明随着两个物种的分歧时间增大,氨基酸的替 代数也将增大,但并不严格与分歧时间成比例。图5-2 p距离和泊松校正(PC)距离随分歧时间变化的关系

医学专业 生物信息学

2. 泊松校正(PC)和 距离p与t的变化呈现非线性关系的原因之一是当多个氨基 酸替代出现在同一位点时,nd偏离实际氨基酸的替代数将

会逐渐增加。更精确估计替代数的方法之一是运用泊松分 布的概念。令r为一个特定位点每年

的氨基酸替换率,并 且为简便起见假设所有位点的r都相同,在时间t年后,每 个位点氨基酸替代的平均数是rt。在一个给定位点氨基酸 替代数k(k=0, 1, 2, 3, …)的发生频率遵循泊松分布,即,

P(k; t ) e rt (rt )k / k !

医学专业 生物信息学

若已知每个位点的氨基酸替代率按分布的话,每个位 点氨基酸替代的观察值将按负二项式分布。因此,Uzzell 和Corbin研究建议,不同位点的替代率都按分布估计,即

f (r ) [ba / (a)]e br r a 1f (r)的分布形状由a决定,a常称为形状参数或参数,而b则称为尺度因子。分布是非常柔性的,有多种多样形状,由 形状参数a决定。

医学专业 生物信息学

当r遵循分布时,就有可能估计出平均每个位点的氨 基酸替代数。为此,让我们考虑在时间t时两个序列间某 一位点上的氨基酸相同的概率,按公式(5.4)计算。然后, 对所有位点的q求均值,为

q

0

a qf (r )dr a 2rt

a

dG a[(1 p) 1/ a 1]

医学专业 生物信息学

[例] 血红蛋白链的进化距离和氨基酸替代率的估计表示出了6种脊椎动物血红蛋白链成对比较的有差 异氨基酸的数目的比例( p)。我们用这些值来估计PC 距离(dG)和 距离( )。表5-5 解析法估算的PC距离的标准误(下对角阵) 及自展法估算的PC距离的标准误(上对角阵)人 人 马 牛 袋鼠 蝾螈 鲤鱼 0.134 0.134 0.216 0.662 0.789 马 0.129 0.134 0.246 0.751 0.770 牛 0.129 0.129 0.207 0.697 0.733 袋鼠 0.205 0.232 0.197 0.751 0.849 蝾螈 0.572 0.638 0.598 0.638 0.913 鲤鱼 0.665 0.651 0.624 0.708 0.752

医学专业 生物信息学

2. 自展法的方差和协方差可以有若干种方法来估计两个序列间氨基酸替代数。 实际上,每个模型都是对真实情况的近似,仅仅提供了氨 基酸的近似替代数。因此,前述的估计距离方差的分析公 式也是近似的。

解决这一问题的一个简便途径是应用自展法 (bootstrap)计算多种距离测度的方差和协方差。

医学专业 生物信息学

x11 , x12 , x13 , x14 , x15 , , x1n x21 , x22 , x23 , x24 , x25 , , x2 n x31 , x32 , x33 , x34 , x35 , , x3n1 B VB (d ) (db d ) 2 B 1 b 1自展法的一个优点是,即使没有现成的数学公式可用时, 也能算出方差和协方差,而且能比近似的数学公式提供更好 的方差和协方差的估计。

医学专业 生物信息学

[例] 由解析法和自展法获得的PC距离的标准误表5-6表 5-7 解析法估算的 PC 距离的标准误(下对角阵) 解析法估算的PC距离的标准误(下对角阵) 及自展法估算的PC距离的标准误(上对角阵) 以及自展法估算的 PC 距离的标准误(上对角阵)人 人 马 牛 袋鼠 蝾螈 鲤鱼 0.031 0.031 0.040 0.074 0.082 马 0.031 0.031 0.043 0.080 0.081 牛 0.031 0.030 0.039 0.076 0.079 袋鼠 0.039 0.043 0.038 0.080 0.086 蝾螈 0.078 0.083 0.080 0.081 0.089 鲤鱼 0.083

0.081 0.079 0.084 0.090

自展法重复了1000次

医学专业 生物信息学

二、分子时钟假说(一)概述 分子钟(molecular clock)假说认为DNA或蛋白质序 列的进化速率随时间或进化谱系保持恒定。 化石数据是被用来校定分子钟的,即将序列间的距离 转换成绝对地质时间和置换率。

医学专业 生物信息学

(二)相对速率检验最简单的分子钟假设检验是采用第三个物种C(外类 群)来检验两个物种A和B是否以相同的速率进化。这一 检验称为相对速率检验(relative-rate test),其实几乎所有 的分子钟检验比较的都是相对速率而不是绝对速率。 确定灵长类分歧时间。

医学专业 生物信息学

(三)内部分枝检验

1. 正态偏离(Z)检验 2. 分析方法 3. 自展内部分支检验

4. 似然比检验

本文来源:https://www.bwwdw.com/article/vz7e.html

Top