回忆版2014

更新时间:2023-03-08 06:43:28 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

2014—2015学年

中科院基因组学期终考试 回忆版

2014/12/9

1 基因组学的研究层面,技术,所获数据的特点

2 什么是组学,组学与基因组学的关系,尽可能列举组学的种类,数据的类型,如何避免各组学研究技术的局限,试举例说明 3 细胞中RNA的种类和变异类型,以及其功能 4 基因序列的四个变量以及计算公式 5 表观遗传的研究对象及研究方法

6 图解有花植物与脊椎动物的基因结构的不同点,试解释其可能的原因

7 人的基因变异可能发生在哪些器官,人的聪明基因的变化如何遗传给下一代

相关复习资料 1、RNA的分类及功能 分类:

(1) 信使RNA(mRNA) ,携带从DNA 转录来的遗传信息。(2) 转运RNA(tRNA) ,负责蛋白质合成时氨基酸的转运。(3) 核糖体RNA( rRNA) ,在核糖体中起装配和催化作用。(4) 具有催化作用的RNA ,即核酶

(ribozyme) 和其它RNA 自我催化分子。(5) 基因组RNA ,指一些病毒以RNA 为遗传物质。(6)指导RNA,是指导RNA 编辑的小RNA 分子。(7)mRNA 样非编码RNA ,其转录和加工方式同mRNA ,但不翻译为蛋白质。 (8) tmRNA ,本身既是tRNA 又是mRNA。 (9) 小胞质RNA(scRNA) ,存在于细胞质中的小RNA 分子。如信号识别颗粒(signal recognition particle ,SRP) 组分中含有的7S RNA。(10) 小核RNA(snRNA) ,是剪接体的组分。(11) 核仁小RNA(snoRNA) ,参与rRNA 的加工。(12) 端粒酶RNA ,是真核生物端粒复制的模板。(13) 反义RNA(antisense RNA) ,可通过与靶位序列互补而与之结合的RNA ,或直接阻止靶序列功能,或改变靶部位构象而影响其功能,另外,在DNA 复制过程中的引物也是RNA ,因其不单独存在并很快降解,未将其作为一类。(14) 长片段非编码RNA, 一类转录本长度超过200 nt的RNA分子,这些ncRNA能够通过多种遗传机制参与基因表达调控, 功能:(1)RNA 作为病毒基因组,在有些病毒中不含DNA ,而是以RNA 作为遗传信息的携带者

(2)RNA 在蛋白质生物合成中起重要作用:mRNA 起信使和模板的作用,tRNA 起转运氨基酸和信息转换的作用,rRNA 起核糖体装配和催化的作用,催化肽键形成的肽基转移酶活性由大亚基rRNA 所承担 (3)RNA 参与转录后加工、编辑和修饰:这些过程依赖于各类小RNA和其蛋白复合物,snRNP组装成的剪接体可对mRNA前体的内含子进行正确的剪接,snoRNA与rRNA前体的加工有关

(4)RNA具有重要的催化功能和其它持家功能: RNA分子在复制和

转录后加工中具有酶活性,现在已知的核酶多数催化分子内反应,它们是RNA合成后加工的一种方式,包括自我切割、自我剪接、自我环化等;在原核和真核生物中RNA参与染色体结构组成或装配 (5)RNA对基因表达和细胞功能具有重要调节作用 (6)RNA在生物进化中起重要作用

2、RNA世界中,为什么说生命起源于RNA

基于核酶的发现,提出“RNA世界理论“,在生命起源的早期阶段存在一个完全由RNA分子组成的分子系统,在这一体系中,系统的信息由RNA进行储存,一部分具有催化功能的RNA分子催化RNA自身信息的传递及RNA分子的自我复制:由于这一系统能够使信息得到储存及复制,所以这一系统能够生存并进化;最后RNA信息的储存由结构更加稳定的DNA分子代替,而催化功能由催化能力更强的蛋白质取代,从而形成了现代意义上的生命体系。

(1)1995年,报道了在原始地球条件下合成胞嘧啶及尿嘧啶碱基,发现了在原始地球条件下有效合成核糖磷酸,所以成功地解决了构成RNA World的单体的来源问题

(2)研究发现,U6 RNA 亚基直接控制了催化功能——有效地发挥了剪接体的刀片作用。这是第一个实验证据证明, RNA 是这一关键生物机制的重要功能组件他们还发现剪接体 RNAs 与II型内含子(一种进化上古老的自剪接、催化 RNA 类型,存在于生命的所有主要分

支中)在结构和功能上存在显著的相似之处。他们认为这表明了这两种以 RNA 为基础的剪接催化因子共享了共同的进化起源,提供了进一步的证据表明,包括剪接体和核糖体在内的重要现代 RNA -蛋白质复合体都从 RNA 世界进化而来

(3)RNA通过联系DNA和蛋白质,广泛地控制着遗传信息的传递、流向和表达,不但给自己在生命形式中留有一席之地,而且充当重要的角色

(4)RNA具有简单的基因组结构,广泛的生物学功能 生命可能是以操作流开始:

(1)RNA世界的猜想:剪切,编辑,改性,如RNA基因组途径;稳定平衡的和部分的途径

(2)转录机器的多样性:多样性和噪音减少的分子基础;稳定信息的开端和一些它的操作流:表观基因组流和蛋白质组流

生命应该起源于“操作”,而不是起源于“信息”。操作首先是由生命大分子“建筑材料”的物理和化学性质决定的。分子之间的相互作用,称为分子机制;而分子机制的关联性和运动则称为过程;两者的结合,称为“流”。相对稳定、有规律的操作就形成了“操作流”,操作流的可重复性则需要“信息流”来保证。因此,操作流的信息化成为必然,导致信息流的产生。最初,操作流的主宰是RNA,亦即所谓的假“RNA世界”说。在RNA世界里,RNA既管操作,也管信息,因此信息流应该是很早就萌生了。但由于同是由RNA分子来承载,操作起来就会产生冲突,尽管产生了很多RNA的化学修饰,有100余种延续至

今,其复杂度也还是有限的。于是,这个由RNA启动的简单、粗犷的信息流首先编码出功能单一的蛋白质。从RNA到蛋白质的信息流就被打通了。蛋白质是由氨基酸组成的,氨基酸分子不仅体积小(为核苷酸的1/3),而且化学性质也远比核苷酸复杂。虽然核苷酸可以被简单的化学基团修饰,但终归只有酸性和亲水的性质;而氨基酸则可以是碱性、中性、亲电、疏水,甚至可以形成共价交联。核苷酸虽说有嘌吟和嘧啶之分,但大小相差不多,而氨基酸不仅种类多,还可有变化多端的侧链,在大和小之间变幻无穷。因此,蛋白质使操作流日趋精确和复杂,也就需要呼唤更稳定的信息流。

操作流的复杂化需要细胞的“分室”即内质网,将细胞分隔成许多小室,使细胞内的物质处于特定的环境,从而使各种生化反应高效率地进行。“分室化”首先可以使操作流本身复杂化;其次,可以将操作流与信息流分开。前者造就了“核糖原初细胞”,后者造就了DNA和现代细胞的“始祖细胞”。因此,细胞的分室造就了现代生命,始祖细胞的分室(分裂)使信息流的功能更加丰富而明确。生命的传承和演变需要既相对稳定而又循序可变的信息流,DNA被选择来担当这个重任,细胞的分室化也因此一发不可收拾。生命从此由单细胞发展为多细胞;亦动物,亦植物;亦简单,亦复杂。DNA不断地改变传承,传承改变,生生不息,千变万化。生命科学家的研究对象因此而取之不尽、用之不竭,他们的好奇心将会得到充分的满足。 3、为什么基因中存在大量的非编码序列

(1)DNA在真核生物的基因组中占有大多数。一些控制基因开和关

的特殊蛋白(转录因子)能特异识别基因附近的非编码DNA,通过与它们相互作用参与基因的抑制与激活。科学家还发现,大多数基因的开启和关闭是由附近的非编码DNA控制的。它们就像是基因的“分子”开关,调节基因的活动。

(2)在非编码DNA家族中,还有一类特殊的群体,称为假基因,这种假基因编码的“假RNA”有保护真基因免受破坏的功能。 (3)非编码DNA还能通过合成调节性RNA发挥功能,迄今为止,细胞中的rRNA、tRNA、snRNA、asRNA、snoRNA、miRNA、piRNA都是非编码“垃圾”DNA合成的。它们参与到基因活化、基因沉默、基因印记、剂量补偿、蛋白合成与功能调节、代谢调控等众多生物学过程中

(4)此外,“垃圾”DNA中还存在大量的重复DNA序列,这些DNA看似没有意义也不能编码蛋白质,却能形成特殊的DNA高级结构,并以此调节附近基因的活性

(5)植物和植物相似的单细胞基因组存在隐秘的剪切机制,以致于他们的内含子大小时有变化,动物和动物相似的基因组有完全的剪切机制,因此,他们的内含子是可延长的

(6)非编码 DNA 还可能具有稳定核骨架的作用。

(7)相当一部分非编码DNA并不是完全中立的,是适应性进化的结果。因此,额外的非编码DNA 得以保留在物种基因组中,导致物种基因组大小的进化。 补充:

(1)反义RNA是具有重要调控功能的RNA分子,它们的基因(即转录它们的DNA序列)至少部分与其作用的基因重叠,只不过所使用的模板链不同

(2)但近年来有人在不同物种发现了具有保守内含子基因。推测内含子的存在可能提供了一个为真核生物特别是多细胞真核生物所特有的基因表达调控系统

(3)已发现从线虫到脊椎动物的许多基因3′UTR区突变导致该基因翻译受阻或加速mRNA降解,从而抑制该基因活性

(4)基因的顺式元件与反式因子相互作用共同调控基因的表达活性,这是真核生物基因表达调控的基本逻辑,按照顺式元件与转录起始点的远近,可以分为近端顺式元件和远端顺式元件。启动子(Promotor)是近端顺式元件,每个基因都有自己的启动子,其他顺式元件也通过影响启动子的活性而实现调控功能,远端顺式元件位于启动子的上游,通过影响启动子的活性而调控基因的转录

(5)真核生物基因组非编码序列决不是毫无功能的废物(Junk),它必然蕴涵基因表达的重要调控信息,它的存在与基因四维时空有序表达密切相关

4、三代测序的特点及功能

特点:第三代测序技术是基于纳米孔(nanopore)的单分子读取技术,有着更快的数据读取速度,应用潜能也势必超越测序。

1、它实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍。

2、它实现了DNA聚合酶内在自身的延续性,一个反应就可以测非常长的序列。二代测序现在可以测到上百个碱基,但是三代测序现在就可以测几千个碱基。

3、它的精度非常高,达到99.9999%。

4、直接测RNA的序列。既然DNA聚合酶能够实时观测,那么以RNA为模板复制DNA的逆转录酶也同样可以。RNA的直接测序,将大大降低体外逆转录产生的系统误差。

5、直接测甲基化的DNA序列。实际上DNA聚合酶复制A、T、C、G的速度是不一样的。正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同。根据这个不同的时间,可以判断模板的C是否甲基化。

第三代测序技术原理主要分为两大技术阵营:

第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMART技术。

第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。 关键技术:

第一:荧光标记的脱氧核苷酸。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。

第二:纳米微孔。A,T,C,G这四种荧光标记的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信号。

而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,使单分子的荧光探测成为不可能。 第三:共聚焦显微镜实时地快速地对集成在板上的无数的纳米小孔同时进行记录。 第三代测序技术的应用 1.基因组测序

由于具有读长长的特点,SMRT测序平台在基因组测序中能降低测序后的Contig数量,明显减少后续的基因组拼接和注释的工作量,节省大量的时间[25]。Christophern等[26]仅仅用0.5*的Pacbio RS系统长度的数据与38*的二代测序(NGS)的测序数据,对马达加斯加的一种指猴基因组进行拼装,大幅度提高了数据的质量和完整度,同时借助Pacbio RS的帮助将原有的Contig数量减少了10倍。DavidA.等利用Pachio RS平台C2试剂通过全球合作几天内就完成了从德国大肠杆菌疫情中获得的大肠杆菌样品以及近似菌株的测序和数据分析,最终获得了2900bp的平均读长以及99.998%的一致性准确度。在对霍乱病菌的研究中,第三代测序技术已初现锋芒。研究人员对5株霍乱菌株的基因组进行了测序研究,并与其他23株霍乱弧菌的基因组进行对比。结果发现海地霍乱菌株与2002年和2008年在孟加拉国分离得到的变异霍乱弧菌ElTorO1菌株之间关系密切,而与1991年拉丁美洲霍乱分离株的关系较远。相对NGS的优势就是能更快获得结果,因此该系统在鉴定新的病原体和细菌的基因组测序方面得到很广泛的应用[1] 。

2.甲基化研究

SMRT技术采用的是对DNA聚合酶的工作状态进行实时监测的方法,聚合酶合成每一个碱基,都有一个时间段,而当模板碱基带有修饰时,聚合酶会慢下来,使带有修饰的碱基两个相邻的脉冲峰之间的距离和参考序列的距离之间的比值如果大于1,由此就可以推断这个位置有修饰。甲基化研究中关于5

mC和5

hmC(5

mC的羟基化形

mC和

式)是甲基化研究中的热点。但现有的测序方法无法区分55

hmC。美国芝加哥大学利用SMRT测序技术和5

hmC的选择性

化学标记方法来高通量检测5hmC。通过聚合酶动力学提供的信息,

甲基腺嘌呤、5

mC和5

可直接检测到DNA甲基化,包括N6

hmC,为表观遗传学研究打开了一条通路。 3.突变鉴定(SNP检测)

单分子测序的分辨率具有不可比拟的优势,而且没有PCR扩增步骤,就没有扩增引入的碱基错误,该优势使其在特定序列的SNP检测,稀有突变及其频率测定中大显身手。例如在医学研究中,对于FLT3基因是否是急性髓细胞白血病(AML)的有效治疗靶标一直存在质疑。研究人员用单分子测序分析耐药性患者基因,意外发现耐药性与FLT3基因下游出现的稀有新突变有关,重新证明了FLT3基因是这种最常见白血病—急性髓细胞白血病(AML)的有效治疗靶标,打破了一直以来对于这一基因靶标的疑惑。凭借PacBio平均3000bp的读长,获得了更多基因下游的宝贵信息,而基于单核酸分子的测序能够检测到低频率(低至1%)罕见突变,正是这项成果的关键所在。

三代测序技术比较:

测序成本,读长和通量是评估该测序技术先进与否的三个重要指标。第一代和第二代测序技术除了通量和成本上的差异之外,其测序核心原理(除Solid是边连接边测序之外)都是基于边合成边测序的思想。第二代测序技术的优点是成本较之一代大大下降,通量大大提升,但缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导致的系统错误,同时提高读长,并要保持二代技术的高通量,低成本的优点 单分子测序优势:No need for amplification (不用扩增)、High information density (信息密度高)、Theoretical limit is diffraction limit of light ,λ /2 (光衍射极限)、Error rate stay flat vs. sequence length (误差率不随链的延长增加)、Longer read length (读序长)、(提供修饰碱基检测新方法)

光学单分子测序面对的问题 :(精确性)(单分子检测) Fluorophore blinking (荧光间断) (聚合酶保真度) (读长)(光损害) (荧光团漂泊) Damage to DNA polymerase (聚合酶损伤)

5、转录组的定义

广义转录组是指生命单元(通常是一种细胞)中所有按基因信息单元转录和加工的RNA分子(包括编码和非编码RNA 功能单元),或说是一

个特定细胞所有转录本的总和。它的研究对象就是这些 RNA 与蛋白质分子和它们所组成的基因功能网络和它们与细胞功能的关系。而狭义转录组是指可直接参与翻译蛋白质的 mRNA 总和。不仅狭义转录组是蛋白质组研究的基础,而且广义转录组也与蛋白质组和细胞学研究密切相关。这些转录本和所编码的蛋白质在不同细胞生理状态下(如干细胞和分化细胞)和不同病理状态下(如癌细胞和病毒感染细胞)的分布和功能的关联性是基因调控和功能研究的重要基础。 转录组成为目前生命科学研究热点的原因很多,至少包括下列几个基本方面: (1)蛋白质组和基因功能的系统性研究对转录组信息的需求不断增加:因为蛋白质组可鉴定和研究的基因数量有限,仅仅在四位数上,单纯蛋白质组数据不足以给出清楚的基因与功能的基本图像或结论。转录组和蛋白质组的数据和研究结果应该互为印证。 (2)作为广义转录组重要组成部分的非编码转录单元研究不断发展,其概念和分子机制都在不断更新,使基因网络调控的研究进一步复杂化。 (3)局限于技术障碍(主要是 DNA 测序),转录组的深度挖掘进展缓慢,过去常用的取样量(一万左右)仅仅是期待值(50万到100万)的 1% -2%(待发表),一直没有形成主流发展方向和凝练出重要科学问题。但是,最近两年崛起的规模化的新 DNA 测序技术将一改目前局面,被价格限制的取样量将不成为问题。随之而来的将是更加深入的转录组研究,科学命题将会非常之多(4)以细胞为主体的转录组研究将取代粗框架的以组织或器官为主体的研究,而且会细化到不同的生理和病理状态。单个细胞转录组研究的概念和技术也在不断地发展。这里主要

是要解决很多技术问题,比如如何得到较纯的细胞,如何获取全长 cDNA 而不改变RNA 的原始分布等。 (5)转录组是系统生物学研究的一个基本部分,它上承基因组,下接蛋白质组,最后又与细胞的功能和代谢过程息息相关。 8、基因表达调控方式

(1)DNA和染色体水平:基因丢失、基因修饰、基因重排、基因扩增、染色体结构变化。

(2)转录水平调控(主要调控方式):转录起始、延伸、终止均有影响。原核生物借助于操纵子,真核生物通过顺式作用元件和反式作用因子相互作用进行调控。包括DNA转录成RNA时的是否转录及转录频率的调控,DNA的序列决定了DNA的空间构型,DNA的空间构型决定了转录因子是否可以顺利的结合到DNA的调控序列上,比如结合到TATA等序列上。

(3)转录后水平调控:主要指真核生物原初转录产物经过加工成为成熟的mRNA,包括加帽、加尾、甲基化修饰等。

翻译水平的调控:翻译水平的调控又可以分成翻译前的调控和翻译后的调控。

(4)翻译前的调控主要是RNA编辑修饰,对mRNA稳定性的调控、反义RNA对翻译水平的调控等

(5)翻译后调控主要是蛋白的修饰,蛋白修饰后可以成为有功能的蛋白或者有隐藏功能的蛋白,如蛋白质的剪切、化学修饰(磷酸化、乙酰化、糖基化等)、转运等。

转录后调控是指在RNA转录后对基因表达的调控,转录后调控主要包括:

①RNA加工调控,它仅在真核细胞中发生,由它控制初级转录物如何及何时进行剪接形成可用的mRNA,例如,在不同类型的细胞中从同一基因产生的转录物可以通过选择内含子来产生不同的mRNA; ②翻译调控,通过翻译调控确立哪些mRNA翻译成蛋白质及什么时候翻译,例如通过特异的mRNA结合蛋白可以抑制翻译,或者通过位于mRNA末端的特异核苷酸序列加速核糖体的结合,从而促进翻译; ③mRNA降解调控,这可影响到某些mRNA种类的稳定性;

④蛋白质活性调控,可选择性地使某些特异的蛋白分子激活、失活、修改、或区域化,从而影响到蛋白质怎样或何时起作用,例如,某些蛋白质只在某个特殊的发育阶段的某些细胞中起作用,而这些蛋白质对其它的细胞有很大的影响,因而在这些细胞中必须将其失活或激活后立即将其定位到特殊的细胞结构中,否则就会引起不正常的发育。 9、表观遗传学涉及哪些方面

表观遗传学的研究内容主要包括:DNA甲基化、组蛋白的末端修饰和变异体、DNAaseⅠ高敏感位点、非编码RNA、转录因子及其辅助因子、顺式调控元件和基因组印记等。 表观遗传学的重要性:

(1)表观遗传学主要通过DNA 的甲基化、组蛋白修饰、染色质重塑和非编码RNA 调控等方式控制基因表达

(2)在肿瘤、免疫等许多疾病的发生和防治以及干细胞定向分化研

究、基因芯片中亦具有十分重要的意义

(3)表观遗传学补充了“中心法则”忽略的两个问题:即哪些因素决定了基因的正常转录和翻译以及核酸并不是存储遗传信息的唯一载体

(4)在分子水平上,表观遗传学解释了DNA序列所不能解释的诸多奇怪的现象。

(5)表观遗传学信息的改变,对包括人体在内的哺乳动物基因组有广泛而重要的效应,如转录抑制、基因组印记、细胞凋亡、染色体灭活等。

(6)DNA 甲基化模式的改变,尤其是某些抑癌基因局部甲基化水平的异常增加,在肿瘤的发生和发展过程中起到了不容忽视的作用 10、看家基因和组织特异性基因的比较

持家基因(house-keeping genes):又称管家基因,是指所有细胞中均要表达的一类基因,其产物是对维持细胞基本生命活动所必需的。如微管蛋白基因、糖酵解酶系基因与核糖体蛋白基因等

组织特异性基因(奢侈基因):是指不同的细胞类型进行特异性表达的基因,其产物赋予各种类型细胞特异的的形态结构特征与特异的生理功能。如卵清蛋白基因、上皮细胞的角质蛋白基因和胰岛素基因等。 比较:

(1)管家基因是一类始终保持着低水平的甲基化并且一直处于活性转录状态。

(2)管家基因表达水平受环境因素影响较小,而是在个体各个生长

阶段的大多数,或几乎全部组织中持续表达,或变化很小,因此常存在于生物细胞核的常染色质中。它的表达只受启动序列或启动子与RNA聚合酶相互作用的影响,而不受其他机制调节。

(3)管家基因高度保守并且在大多数情况下持续表达,因此管家基因常被用于分子技术--多位点基因分析。

(4)管家基因往往含较少的SNP(选择性限制)(SNP密度与基因表达宽度负相关)

(5)SNP密度与管家的基因的表达水平正相关,当表达水平改变时,TS基因对SNP密度没有倾向

(6)低表达的基因倾向组织特异性,高表达的基因倾向于看家基因,组织特异性基因的SNP较看家基因丰富

(7)较晚复制的基因往往有更多的突变(暴露于辐射的时间更长),看家基因较早复制,组织特异性基因较晚复制

(8)看家基因是维持细胞生存不可缺少的,奢侈基因和细胞分化有关,是组织特异性表达有关的基因,在特定组织中保持非甲基化或低甲基化状态,而在其他组织中呈甲基化状态。几乎所有的甲基化均发生在二核苷序列5'-CG-3'中的C上。使胞嘧啶变为5'-甲基胞嘧啶。而含有这种甲基化CG的序列,对应于染色体上的兼性异染色质区域。 (9)看家基因以组成型方式在所有细胞中表达,而奢侈基因在特定组细胞中得到表达。这些基因的特异表达与否,决定了生命历程中细胞的发育、分化、细胞周期的调控、体内平衡、细胞衰老、甚至于程序化死亡。对不同类型,不同分化时期细胞的基因或基因表达情况的

研究,可以获得整个细胞生命过程的信息。细胞在不同自然或人工理化因子作用下代谢过程变化甚至于病变,基因也将选择性表达。 11、GC含量

GC 含量是基因组 DNA 序列碱基组成的重要特征, 蕴涵基因结构、功能和进化信息。

通过从公共数据库提取 7 992 个非冗余的人类蛋白质编码基因 DNA 序列, 分析了基因序列不同区域的局部 GC 含量和相关性。结果表明:

(1)基因局部 GC 含量呈现不均一性, 5′非翻译区G水平最高,为 62.56%;而 3′非翻译区GC水平最低,为 43.97%。

(2)3′侧翼序列的 GC 含量能较好地代表基因所在区域 DNA 长片段的 GC 水平。虽然开放阅读框的 GC 含量比内含子、3′非翻译区和 3′侧翼序列的 GC 含量高, 但 4 个区域的 GC 含量之间均存在较高的相关性。

(3)密码子第三位置的平均 GC 含量(GC3)为 58.09%, 显著高于密码子第一位置和第二位置的 GC 含量, 且与开放阅读框的 GC 水平高度相关, 相关系数高达 0.91。

(4)GC3 与内含子、3′非翻译区、3′侧翼序列的 GC 水平相关性也较高, GC3 对 3′侧翼序列的 GC 含量的直线回归斜率为 1.25。因此, GC3 可作为基因所在区域 GC 水平变化的敏感性指标。 (5)密码子第一位置和第二位置以及 5′侧翼序列和 5′非翻译区 GC 水平与基因其他区域的 GC水平的相关性较弱。

该研究结果提示: 基因蛋白编码区密码子第三位置、内含子、3′非翻译区和 3′侧翼序列的碱基可能经历了相近的进化过程, 而蛋白编码区密码子第一位置和第二位置、5′侧翼序列和 5′非翻译区由于功能的需要而经历了不同的突变和选择。 补充:

大多数GC含量变化发生基因中,而不是基因之间。较大的基因中,可能有更多的富含AT的外显子或内含子,但GC含量变化的程度在很大程度上不依赖基因的大小。只有人类有小幅下降的趋势。

为什么还要引进C?

G-C碱基对在RNA中不是必须的但在DNA中是必要的,GC含量的变化对于基因组动力学和多样性是很关键的;

从R-Y到 A-U,提高Purine-sensitivity(嘌呤敏感性)

1、Frozen events hypotheis:“Frozen” from some “random events”。The relationship between codon and protein are “frozen” at some time point of some life.Hard to change。Challenged by R. D. Knight, S. J. Freeland and L. F. Landweber in three faces of the genetic code:Selection、History、chemistry

2、Co-evolution Hypothesis:从代谢理论分析遗传密码的起源;氨基酸起源、传密码的进化;氨酰-tRNA的合成;遗传密码的进化 最初的密码子只保证5种基本氨基酸的合成,Ala, Gly, Ser, Asp and Glu. 这些氨基酸都是GC丰富的密码子,其合成途径是最短、最简单的。

接下来产生的4、5个新的氨基酸(Asn, Thr, Pro, Gln,或许还有Arg类似物)产生于遗传密码的下一次扩增阶段。 在这些氨基酸生物合成途径中,反应的数目在路径的复杂性中占据中间位置(实在不知所云,就这样翻译了。原文是On the general net of biosynthetic pathways the complexity of the routes assigned to these amino acids occupies an intermediate position in terms of the number of reactions that are involved in their production.)

密码子进化的最后阶段,终于形成了4个碱基GCAU系统! 最后出现的氨基酸倾向于走最长的代谢途径

重建密码子进化的主要阶段:这些氨基酸的多巨物产生了阴离子多肽链,可以将不带电的氨基酸残基锚定到带正电的金属离子表面;密码子的扩增减少了突变到不可读密码子的风险;非极性(疏水性)氨基酸的量也在增加;带正电荷的氨基酸以及芳香族氨基酸在加入进来,合成具在酸性条件下有催化活性的酶成为可能;这种种类的氨酰-tRNA合成酶参与了这些过程

最优密码子(Optimal genetic code):有人认为三联体密码子起源于2种二联体密码。一种是基于前两个的'prefix' codons,一种的基于后两个的'suffix' codons,这种假说解释了现在密码子的许多特性,如翻译错误率的降低,为什么只编码20种氨基酸??

successive binary decisions(连续的二分法)可以减少翻译的错误率,具体如下图:其中R代表嘌呤A或G;Y代表嘧啶C或U:N代表种碱基的任何一个

重排密码表:

相应的给出了不同GC content下的不同类型密码子(GC-rich,AU-rich,GCp1,GCp2)的使用频率,由下图可以看到,随着DNA GC content的增加,GC-rich密码子(上图中的右下象限的黄色区域)的使用频率逐渐增高,而AU-rich密码子(上图中的左上象限的蓝色区域)的使用频率逐渐减小。

下图给出了不同类型密码子所编码的氨基酸的多样性(diversity)和鲁棒性(robustness),可以看到,随着GC-rich的密码子其鲁棒性也强(多数为4-fold简并密码子:三联密码的最后一个字母是N);而AU-rich的密码子鲁棒性若(多样性强)。

下图是根据密码子所编码氨基酸的物理化学性质(基本AA、酸性AA、极性AA、非极性AA)来编排的密码子表,可以看出,3个6-fold煎饼的密码子(Leu, Arg, Ser),它们都可以分为一个2-fold 简并和一个4-fold简并。

GC突变偏好性:钟摆模型:几乎一半的密码子都是嘌呤敏感purine-sensitive的。

为什么会出现6-fold简并密码子?如下图: 平衡作用引入Arg (reduced Lys(K) when GC increases) 引入Ser

Reducing C pressure Reducing purine pressure

Leu: U to C to reduce GC pressure Arg: A to C to reduce GC pressure

Ser: AG to UC to reduce both GC and purine pressures

所有这些都有C的参与!C在作为最后加入的碱基起到重塑遗传密码的作用。有利于减轻G (purine) pressure。

GC敏感性与氨基酸的大小有关GC-sensitivity:It is a matter of size: 对于疏水性AA而言,密码子GC的增加预示着其体积的减小,如下图

对于带正电以及某些极性AA而言,密码子GC的增加预示着其体积的增加小,如下图

微创理论:The Minimal Damage Theory:突然的变化sudden changes虽然好坏未知,但大部分是不利的。所以有机体为了抵抗环境的变化会进化出一定的鲁棒性。

码学中纯文本解密与遗传密码破译的关系,如下图: RNA编辑的种类Types of RNA Editing: ? A process that alters the RNA sequence ? Nt insertion, deletion, or conversion

? Uridine-indel editing (kinetoplastid mitochondria) ? C-insertion mitochondria)

? C to U editing (U to C also; in plant mitochondria and chloroplasts, apoB, etc.)

and

dinucleotide

insertion

editing

(Physarum

? tRNA editing (Acanthamoeba mitochondria, marsupial mitochondria, etc.)

? A to I editing (glutamate receptor, hepatitis delta virus, etc.) ? Sno RNA-mediated nucleotide modification of rRNAs 总结

Step 1:首先高清遗传密码、RNA世界,高清R嘌呤A或G;Y代表嘧啶C或U。

最初的密码子是不编码小的或者酸性AA的

Step2:G 的加入扩增了密码子表。此外增加了A to I edit machinery

Step 3:GU and AG作为剪切信号。

Step 4:C加入,DNA-protein-RNA world形成

Genetic Code and the Rules of Life:

遗传密码与生命一样,起源都是简单的。生命变得鲁棒,多样,复杂,遗传密码也要变得鲁棒,多样,复杂。生命随着遗传密码的完善而进化。

12、为什么要开展人类基因组和RNA组计划

人类基因组计划:

于20世纪80年代提出的,由国际合作组织包括有美、英、日、中、德、法等国参加进行了人体基因作图,测定人体23对染色体由3×109核苷酸组成的全部DNA序列,于2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。 HGP的目标:(1) 人类DNA测序(2) 发展测序技术(3) 鉴定人类基因组变异(4)发展有效的基因组学技术(5)比较基因组学(6)ELSI: ethical, legal, and social issues(7) 生物信息学和计算生物学(8)Training and manpower

在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。 必要性:

(1)DNA测序技术和相关分子生物学技术日趋成熟。包括DNA测序、寡聚核苷酸合成、DNA杂交、分子克隆、聚合酶链式反应(PCR)等。尤其是80年代初荧光标记法DNA测序仪的研发和接近问世 (2)生物医学发展的迫切需求。未知基因序列的不断解读,遗传疾病相关变异的定位克隆(Positional cloning),新转录因子和信号传导通路的不断发现,都使DNA测序技术和需求被推到了科学界关注的焦点。

(3)启动国际合作,调动全球各方资源的必要性。比如,人类基因组研究会涉及到世界各国的人类遗传资源,与其说在美国集中收集,不如让这些国家直接参加一个共同的合作项目,同时他们所代表的国

家还可以给与资金的支持。

(4)当时遗传学和基因组学等学科的发展也遇到了新的瓶颈。比如对全基因组遗传图谱和物理图谱的迫切需求,对打片段DNA克隆的迫切需求

人类RNA组计划(HRP) (1)必要性:

RNA是三大生命生物分子中的一个

我们必须知道如何每个人细胞内RNA分子在给定的条件下如何被调节和发挥功能的

我们要知道有多少RNA与人类疾病有关,从而为提供药物靶标,疾病诊断和药物开发和了解人类生物学信息提供帮助

人类基因组计划完成10年之后,我们下一步要做什么,谁将会带头? (2)研究的范围:

获取所有人类细胞类型中细胞RNA(从人细胞类型>百万RNAomes生理和病理条件下)中的上下文信息的完整 早期胚胎和组织/器官的发展 分化,细胞凋亡,和恶性肿瘤

代表性的病理状况(例如不同类型的肿瘤) 解密的角色

在调节染色体构象和基因表达的lncRNAs 小RNA,如miRNA的,在调节基因表达和功能 在调节基因表达和功能RNA修饰

定义和可视化功能模块,途径和RNAomes在细胞空间的调控网络 (3)RNAome研究的历史视角:

通过人类基因组计划,EST概念(表达序列标签)和未知领域;EST序列都是有用的,但有局限性。 发现基于全长cDNA转录的基因组注释 微阵列和测序技术都用于基因表达研究 调控RNA的发现(如miRNAs与lncRNAs) RNA的修饰和RNA编辑调控作用的发现 ENCODE项目(2003年) (4)挑战与机遇:

基因组测序已经完成,但不是在所有的细胞类型都存在所有RNA元件,在不同细胞中变化很大和对环境的变化也非常敏感;百万人的基因组测序的重点是基因表达的遗传变异;表达水平并不意味着离和 - 对所有基因;人组织和细胞新鲜来源;个人和群体中存在不同;实现单细胞和单分子分辨率

我们可能有更多的工作要做,来发现所有的RNA,特别是operational RNA(不是高度保守的,低表达,隐藏在重复和冗余副本等);全基因组复制(植物和低等脊椎动物)产生更多的信息RNA和候选的operational RNA ;低表达的基因是高度可变的,这样成为定量研究一大挑战 (5)概念论证: RNA分为:催化和信息

RNA与表观遗传学,转录和翻译机制直接相关 转录组或转录本:mRNA有催化和信息传递功能 RNA参与的细胞功能的许多方面 RNA加工:编辑和修改

该项目的目的也是为了研究RNA相关的机制,而不是仅仅转录本自己

人类RNA组项目,HRP HRP只专注于RNA (6)期望成就:

人类细胞类型的百万RNA组

在不同细胞类型中特定的条件下,所有人类的RNA元件(包括其变体)和它们的存在

所有的RNA组修饰和编辑位点 RNA元件的功能网络

表观遗传学,蛋白质组和代谢研究的功能信息 癌细胞和其他病理状态细胞的标记

药物候选和功能重要基因,进一步的分子生物学研究 (7)主要阶段和时间表 2016-2020年:技术准备阶段

2021-2025年:调查阶段,获取所有类型的细胞生理及病理情况下10万RNA组

2026-2030:量产阶段

(8)关键技术有待开发:wet-bench

单细胞技术;隔离,突变检测,RNA测序,在单个细胞和有限细胞(10,100,或1000)中表达的验证;在单分子分辨率的基因表达测量和基因分型;在单分子和亚细胞分数/位置的胞内追踪;数据收藏,存储,挖掘,共享等管理任务;云计算系统为数据存储和计算;HPC中心计算密集型任务;Wiki系统为大众诠释转录本;数据可视化算法和工具盒;数据标准的发展;数据共享联盟;为研究建立方法与技术(RNA修饰(如M6A),RNA编辑(编辑和机制),RNA能量的关系(polyP,ATP/ GTP/ PPI),RNA降解监控,ATP,GTP,PPI,polyP等的追踪和实时浓度测量,RNA信号通路和机制)

本文来源:https://www.bwwdw.com/article/9xn.html

Top