医学专业 生物信息学第5章
更新时间:2023-05-13 22:15:01 阅读量: 实用文档 文档下载
- 医学专业评级排名推荐度:
- 相关推荐
医学专业 生物信息学
第五章 分子进化分析Molecular Evolution Analysis 哈尔滨医科大学 李霞
医学专业 生物信息学
第一节 引 言 分子进化开始于20世纪60年代,近20年来由于分子遗传学 资料的迅速积累,成为计算生物学和生物信息学等新兴学科 的重要组成部分。 尤其人类基因组测序后,推动了分子进化的进一步发展,序 列保守性,基因表达和网络的进化等研究内容不断的出现在 最新的研究中,充实了生物信息学的研究范围。
医学专业 生物信息学
第二节 系统发生分析与重建一、核苷酸置换模型及氨基酸置换模型(一)DNA序列进化分析DNA序列的进化演变比蛋白质序列的演变更复杂, 因为有多种多样的DNA区域,如蛋白质编码区、非编 码区、外显子、内含子、侧翼区、重复DNA序列和插 入序列等。因此,弄清所研究的DNA类型和功能是十 分重要的。即便我们单独考虑蛋白质编码区,密码子 第一、二和三位的核苷酸替代式样也不尽相同。何况, 某些区比其他区更易受到自然选择的影响,使得DNA 的不同区域呈现不同的进化模式。
医学专业 生物信息学
1. 两个序列间的核苷酸差异对于一种同源的核酸分子来说,它在亲缘关系越近 的生物之间差异就越小,相反差异 就越大,即两同源分 子分歧的时间与它们之间的序列差异成正比。 同一条祖先序列传衍的两条后裔序列,它们的核苷 酸差异随时间而增加。一个简便的描述序列分歧大小的 测度是两条后裔序列中不同核苷酸位点的比例。 以下,我们称此估计为核苷酸间的p距离
p nd / n
医学专业 生物信息学
尽管总核苷酸替代能用公式计算,但我们常常也需要知道 两个序列间(即序列和)不同核苷酸对的频率。在每一序 列中,有4种不同核苷酸(A,T,C,G),故两条序列相应位 点配对时可有16种不同类型的核苷酸对表5-1类型 相同核苷酸对 频率 转换型对 频率 颠换型对 频率 AA TT
16种不同类型的核苷酸对核苷酸对 CC GG 总数
O1AG
O2GA
O3TC
O4CT
O总数
P 11AT
P 12TA
P21AC
P22CA
P总数
Q11TG
Q12GT
Q21CG
Q22GC 总数
频率
Q31
Q32
Q41
Q42
Q
医学专业 生物信息学
如果4种核苷酸间的替代是随机发生的,当P很小时,Q约 为P的2倍。实际上,通常转换比颠换出现更频繁。因此, P将大于Q/2。当序列间的分歧度低时,转换对颠换的比 值(R),常称为转换/颠换比,能用下式估计:
R P/Q核苷酸替代数的估计常常建立在以下假设基础上,即每个 序列的核苷酸频率处于平衡态,且此频率不随时间而变化。 当每个序列的核苷酸频率处于平衡时,我们期望表5-1中的、 P P 、 P21 P22 、 Q11 Q12 、 Q21 Q22 、 Q31 Q32 以及 11 12 Q41 Q42 。因此,可用零假设去检验核苷酸频率是否处于 平衡态。
医学专业 生物信息学
2. 核苷酸替代数的估计欲估计
核苷酸替代数,必须应用核苷酸替代的数学模型。 为此,许多学者提出了不同的替代模型,其中一些模型以 替代率矩阵的形式列在表中。表5-2A A T C G T C G α α α -A T C G (A)Jukes-Cantor 模型 -α α α -α α α -α α α (B)Kimurar 模型 A T C G -β β α β -α β β α -β α β β -A T C G -β θ β θ α θ2 2
核苷酸替代模型A -α gA α gA α gA T α gT -α gT α gT C α gC α gC -α gC G α gG α gG α gG -(C)Equal-input 模型
(D)Tamura 模型 β θ -α θ β θ2
β θ α θ -β θ
1 1
α θ β θ β θ --
1 1 1
2
2
2
1
医学专业 生物信息学
[例5.1] 人与猕猴的细胞色素b基因间的 核苷酸替代数 动物线粒体DNA中的细胞色素b基因是高度保守的,因此 常被用于研究亲缘关系较远的动物的进化关系。表5-3示出 了人与猕猴的细胞色素b基因的10种不同类型核苷酸对的 数目,并分别以密码子第1、2和3位点列出。表5-3 人与猕猴的细胞色素b基因的10种不同类型核苷酸对
转换 密码子的位置 第一 第二 第三 合计 TC 21 20 60 101 AG 22 3 16 41 TA 5 6 6 17
颠换 TG 1 1 5 7 CA 5 0 49 54 CG 4 2 2 8 TT 68 140 11 219
相同对 CC 93 87 122 302 AA 100 71 102 273 GG 56 45 2 103
总数
nd58 32 138 228
n375 375 375 1125
医学专业 生物信息学
(二)氨基酸序列进化分析
1. 氨基酸差异和不同氨基酸的比例蛋白质或肽链的进化演变研究开始于两个或多个氨基酸 序列的比较。图5-1显示了人、马、牛、袋鼠、蝾螈和鲤 鱼的血红蛋白α链的氨基酸序列。图中,不同的氨基酸分 别用不同的单字母代表。图5-1 六种脊椎动物血红蛋白α链的氨基酸序列
医学专业 生物信息学
表5-4 不同脊椎动物血红蛋白α 链中不同氨基酸的数目(上对角线) 以及不同氨基酸的比例(下对角线)
人人 马 牛 袋鼠 蝾螈 鲤鱼
马17
牛17 17 0.179 0.450 0.464
袋鼠26 29 25 0.471 0.507
蝾螈61 66 63 66 0.529
鲤鱼68 67 65 71 74
0.121 0.121 0.186 0.436 0.486
0.121 0.207 0.471 0.479
注:计算排除了缺失和插入,使用的氨基酸总数为140。
在图中所给出的例子中,删除所有间隔后可比较的总氨基 酸位点数为140。因此,仕此例中。值出现在表中对角线 上部,可以很容易地计算出,列于对角线下部。
医学专业 生物信息学
当所比较的物种亲缘关系很远时(如人和鲤鱼),值 较大,而当亲缘关系较近的物种比较时(如人和马),值 较小。这说明随着两个物种的分歧时间增大,氨基酸的替 代数也将增大,但并不严格与分歧时间成比例。图5-2 p距离和泊松校正(PC)距离随分歧时间变化的关系
医学专业 生物信息学
2. 泊松校正(PC)和 距离p与t的变化呈现非线性关系的原因之一是当多个氨基 酸替代出现在同一位点时,nd偏离实际氨基酸的替代数将
会逐渐增加。更精确估计替代数的方法之一是运用泊松分 布的概念。令r为一个特定位点每年
的氨基酸替换率,并 且为简便起见假设所有位点的r都相同,在时间t年后,每 个位点氨基酸替代的平均数是rt。在一个给定位点氨基酸 替代数k(k=0, 1, 2, 3, …)的发生频率遵循泊松分布,即,
P(k; t ) e rt (rt )k / k !
医学专业 生物信息学
若已知每个位点的氨基酸替代率按分布的话,每个位 点氨基酸替代的观察值将按负二项式分布。因此,Uzzell 和Corbin研究建议,不同位点的替代率都按分布估计,即
f (r ) [ba / (a)]e br r a 1f (r)的分布形状由a决定,a常称为形状参数或参数,而b则称为尺度因子。分布是非常柔性的,有多种多样形状,由 形状参数a决定。
医学专业 生物信息学
当r遵循分布时,就有可能估计出平均每个位点的氨 基酸替代数。为此,让我们考虑在时间t时两个序列间某 一位点上的氨基酸相同的概率,按公式(5.4)计算。然后, 对所有位点的q求均值,为
q
0
a qf (r )dr a 2rt
a
dG a[(1 p) 1/ a 1]
医学专业 生物信息学
[例] 血红蛋白链的进化距离和氨基酸替代率的估计表示出了6种脊椎动物血红蛋白链成对比较的有差 异氨基酸的数目的比例( p)。我们用这些值来估计PC 距离(dG)和 距离( )。表5-5 解析法估算的PC距离的标准误(下对角阵) 及自展法估算的PC距离的标准误(上对角阵)人 人 马 牛 袋鼠 蝾螈 鲤鱼 0.134 0.134 0.216 0.662 0.789 马 0.129 0.134 0.246 0.751 0.770 牛 0.129 0.129 0.207 0.697 0.733 袋鼠 0.205 0.232 0.197 0.751 0.849 蝾螈 0.572 0.638 0.598 0.638 0.913 鲤鱼 0.665 0.651 0.624 0.708 0.752
医学专业 生物信息学
2. 自展法的方差和协方差可以有若干种方法来估计两个序列间氨基酸替代数。 实际上,每个模型都是对真实情况的近似,仅仅提供了氨 基酸的近似替代数。因此,前述的估计距离方差的分析公 式也是近似的。
解决这一问题的一个简便途径是应用自展法 (bootstrap)计算多种距离测度的方差和协方差。
医学专业 生物信息学
x11 , x12 , x13 , x14 , x15 , , x1n x21 , x22 , x23 , x24 , x25 , , x2 n x31 , x32 , x33 , x34 , x35 , , x3n1 B VB (d ) (db d ) 2 B 1 b 1自展法的一个优点是,即使没有现成的数学公式可用时, 也能算出方差和协方差,而且能比近似的数学公式提供更好 的方差和协方差的估计。
医学专业 生物信息学
[例] 由解析法和自展法获得的PC距离的标准误表5-6表 5-7 解析法估算的 PC 距离的标准误(下对角阵) 解析法估算的PC距离的标准误(下对角阵) 及自展法估算的PC距离的标准误(上对角阵) 以及自展法估算的 PC 距离的标准误(上对角阵)人 人 马 牛 袋鼠 蝾螈 鲤鱼 0.031 0.031 0.040 0.074 0.082 马 0.031 0.031 0.043 0.080 0.081 牛 0.031 0.030 0.039 0.076 0.079 袋鼠 0.039 0.043 0.038 0.080 0.086 蝾螈 0.078 0.083 0.080 0.081 0.089 鲤鱼 0.083
0.081 0.079 0.084 0.090
自展法重复了1000次
医学专业 生物信息学
二、分子时钟假说(一)概述 分子钟(molecular clock)假说认为DNA或蛋白质序 列的进化速率随时间或进化谱系保持恒定。 化石数据是被用来校定分子钟的,即将序列间的距离 转换成绝对地质时间和置换率。
医学专业 生物信息学
(二)相对速率检验最简单的分子钟假设检验是采用第三个物种C(外类 群)来检验两个物种A和B是否以相同的速率进化。这一 检验称为相对速率检验(relative-rate test),其实几乎所有 的分子钟检验比较的都是相对速率而不是绝对速率。 确定灵长类分歧时间。
医学专业 生物信息学
(三)内部分枝检验
1. 正态偏离(Z)检验 2. 分析方法 3. 自展内部分支检验
4. 似然比检验
正在阅读:
医学专业 生物信息学第5章05-13
党政机关公务用车问题专项治理工作政策解答(1-5)10-06
科举制度的利弊12-12
中等职业学校-郑州测绘学校05-07
操作规程10-11
第十一章概念与思考题及答案01-01
南阳市宛城区宛东黄牛交易市场与秦本跃、黄付生行纪合同纠纷一案04-05
英语幽默笑话精选08-12
2020考研外国教育史知识点十01-06
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 生物
- 医学
- 专业
- 信息
- 新余市中考满分作文-如果没有那么多
- 职场博弈论的诡计_第九章 太聪明你将成为众矢之的
- 如何在非IE浏览器中正常浏览集成有优看控件的网站(图文说明)
- 泗渡镇双仙小学传染病防控工作计划
- Linux下Oracle 10g安装图文教程
- 山东省青岛市2012届高三期末检测基本能力
- 杭电操作系统-2009A答案
- 开展2009年度卫片执法工作的报告
- 输电线路铁塔制造工艺规程
- 对我国农业发展方式转变浅析
- LTE室分方案及建设策略 王克信
- 创新流动人口计划生育服务管理模式69
- 铁路工程安全生产管理实施细则
- 《构建丝绸之路新经济带_加快“三个陕西”建设步伐》试题
- 硫化氢预防预控措施
- 面向创新教育的经济数学课程改革思考
- 鹤岗市兴山区2020版九年级上学期期中化学试卷A卷
- 2015年中国海洋大学金融硕士考研参考书,考研复试分数线,考研报录比
- 全国2009年4月自考网络操作系统试题
- 我终于还是说了一句我爱你