基因SDH2-3的生物信息学分析

更新时间:2023-12-21 12:48:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

课程名称:生物信息学 主讲教师:张征锋

学 号: 2011211825 姓 名:肖静 成绩 :

前言

基因SDH2-3位于拟南芥5号染色体上,该基因的表达量很低,只占平均基因的9.5%。SDH2-3和SDH2-1、SDH2-2一起编码拟南芥线粒体呼吸链复合体Ⅱ琥珀酸脱氢酶的铁-硫中心。SDH2-3转录发生于种子成熟期,在干燥阶段持续转录,在干燥种子中富含SDH2-3转录产物,在萌芽期则明显减少[1-2]。对基因SDH2-3进行一系列生物信息学分析,了解该基因及其编码的蛋白质的结构并进行基因序列和蛋白质进化分析。

根据基因号SDH2-3,从NCBI中找到相应的DNA序列及蛋白质序列的fasta格式,之后进行一系列分析操作。

运用GENSCAN软件进行基因结构预测;运用CpGPlot来预测CpG岛;运用POLYAH来进行转录终止信号预测;运用PromoterScan来预测启动子区域。在Genebank中进行blastn同源性搜索,搜索同源性高的前10个基因序列,运用ClustalW2进行同源比对,运用TreeView构建进化树等完成基因序列进化分析。

运用ExPASy数据库中的ProtParam分析工具进行蛋白质的等电点、分子量、氨基酸组成等理化性质分析;运用ExPASy数据库中的ProtScale程序进行蛋白质的亲疏水性分析。运用PREDATOR工具来分析蛋白质的螺旋、折叠、转角、环等二级结构。在蛋白质结构数据库(PDB)中检索同源蛋白质的结构,运用Swiss-Model来预测蛋白质三级结构。运用TMHMM进行蛋白质跨膜区预测;运用SignalP 4.1 Server进行蛋白质信号肽分析。在Genebank中进行blastp同源性搜索,搜索同源性高的前10个蛋白质序列,运用ClustalW2进行同源比对,运用TreeView构建进化树等完成蛋白质序列进化分析。 一 过程及结果分析 1 DNA序列及蛋白质序列

根据基因号,从NCBI中找到相应的DNA序列及蛋白质序列的fasta格式。

基因SDH2-3的生物信息学分析

网站如下:http://www.ncbi.nlm.nih.gov

2 基因序列分析

2.1 基因结构的预测分析

运用GENSCAN软件进行基因预测。

网站如下:http://genes.mit.edu/GENSCAN.html

如图3,在该基因中没有发现外显子。但在该基因中发现了SNG1基因,该基因始于997碱基,终于1194碱基,其后有polyA信号。SNG1是拟南芥54 个

SCPL基因中的家族成员之一,属于拟南芥正常生长发育所必需的功能基因。SNG1编码芥子酰基葡萄糖: 苹果酸酰基转移酶。该酶的酰基受体底物是一些变化相对较小的氨基酸残基, 它与羟基肉桂酸的酯代谢有关。SNG1与芥子苹果酸的合成和苯丙次生代谢产物有关[3]。 2.2 CpG岛的预测分析

运用CpGPlot来预测CpG岛。

网站如下:http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/

如图4,在该基因中没有发现CpG岛。 2.3 转录终止信号的预测分析

运用POLYAH来进行转录终止信号预测。

网站如下:

http://linux1.softberry.com/berry.phtml?topic=polyah&group=programs&subgroup=promoter

如图5,该基因有3个可能的polyA位点,分别位于189、200、929碱基处,

权重分别为2.31、7.75、1.29。这与前述GENSCAN的预测结果不一致。可能是因为,真核生物基因组序列本身存在大量的重复序列,当以polyA位点预测基因终止信号位点时会出现较大比例的假阳性。 2.4 启动子区域的预测分析

运用PromoterScan来预测启动子区域。

网站如下:http://www-bimas.cit.nih.gov/molbio/proscan/

如图6,没有发现可能的启动子区域。 2.5 基因序列进化分析

运用BLAST软件包搜索同源性高的前10个基因序列。 网站如下:http://blast.ncbi.nlm.nih.gov/Blast.cgi

图7 同源序列

运用ClustalW2进行同源序列比对。

网站如下:http://www.ebi.ac.uk/Tools/msa/clustalw2/

图8 同源序列比对

运用TreeView软件构建系统进化树。

图9 进化树

3 蛋白质序列分析 3.1 蛋白质一级结构分析

运用ExPASy数据库中的ProtParam分析工具进行蛋白质的等电点、分子量、氨基酸组成等理化性质分析。

网站如下:http://web.expasy.org/protparam/

图10 蛋白质理化性质分析

如图10,氨基酸残基数为309,分子量为34983.2,理论等电点为9.08,。

不稳定系数为55.17,说明该蛋白质不稳定。

运用ExPASy数据库中的ProtScale程序进行蛋白质的亲疏水性分析。 网站如下:http://web.expasy.org/protscale/

图11 蛋白质亲疏水性分析

该蛋白质主要有3个高疏水性区域,分别分布在85-105区域、160-170区域、

210-220区域;7个主要的最小分值区域分别位于60、79、119、146、201、227、252氨基酸位点附近,显示这些区域为高亲水性。 3.2 蛋白质二级结构分析

运用PREDATOR工具来分析蛋白质的螺旋、折叠、转角、环等二级结构。 网站如下:http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::predator

图12 蛋白质二级结构分析

如图12,该蛋白质富含helix结构(螺旋)和sheet结构(折叠)。

3.3 蛋白质三级结构分析

在蛋白质结构数据库(PDB)中检索同源蛋白质的结构。 网站如下:http://www.rcsb.org/pdb/search/advSearch.do

图13 同源蛋白质结构

运用Swiss-Model来预测蛋白质三级结构。 网站如下:http://swissmodel.expasy.org/interactive

图14 蛋白质三级结构预测

运用TMHMM进行蛋白质跨膜区预测。

网站如下:http://www.cbs.dtu.dk/services/TMHMM-2.0/

图15 蛋白质跨膜区预测

如图14,该蛋白质没有跨膜区域,且为膜外蛋白。但是该结果不一定准确,因为TMHMM预测有一定的准确度,如果蛋白质的氨基酸序列的疏水性不是很强,就有可能预测不出来。

运用SignalP 4.1 Server进行蛋白质信号肽分析。 网站如下:http://www.cbs.dtu.dk/services/SignalP/

图16 蛋白质信号肽分析 如图15,该蛋白质没有发现信号肽序列。

3.4 蛋白序列进化分析

运用BLAST软件包搜索同源性高的前10个蛋白质序列。 网站如下:http://blast.ncbi.nlm.nih.gov/Blast.cgi

图17 同源蛋白质序列 运用ClustalW2进行同源比对。

网站如下:http://www.ebi.ac.uk/Tools/msa/clustalw2/

图18 同源蛋白质比对

运用TreeView软件构建系统进化树。

图19 进化树

结论

对SDH2-3进行基因序列分析和蛋白质序列分析发现,SDH2-3全长1506,在该基因中没有发现外显子。但在该基因中发现了SNG1基因,该基因始于997

碱基,终于1194碱基,其后有polyA信号。在该基因中没有发现CpG岛和可能的启动子区域。

SDH2-3编码的蛋白质,氨基酸残基数为309,分子量为34983.2,理论等电点为9.08。不稳定系数为55.17,说明该蛋白质不稳定。该蛋白质主要有3个高疏水性区域,分别分布在85-105区域、160-170区域、210-220区域;7个主要的最小分值区域分别位于60、79、119、146、201、227、252氨基酸位点附近,显示这些区域为高亲水性。该蛋白质富含helix结构(螺旋)和sheet结构(折叠)。运用TMHMM预测该蛋白质跨膜区域,没有发现跨膜区域,且显现为膜外蛋白。但是该结果不一定准确,因为TMHMM预测有一定的准确度,如果蛋白质的氨基酸序列的疏水性不是很强,就有可能预测不出来。在该蛋白质中没有发现信号肽序列。

参考文献:

[1] Figueroa P, León G, Elorza A, Holuigue L, Jordana X.Three different genes encode the iron-sulfur subunit of succinate dehydrogenase in Arabidopsis thaliana[J].Plant Cell Physiol,2006,47(1):14-21.

[2] Elorza A, Roschzttardtz H, Gómez I, Mouras A, Holuigue L, Araya A, Jordana X.A nuclear gene for the iron-sulfur subunit of mitochondrial complex II is specifically

expressed

during

Arabidopsis

seed

development

and

germination[J].Plant Mol Biol,2001,46(2):241-50.

[3] 王育华,邹杰,陈信波.植物丝氨酸羧肽酶及其类蛋白的研究进展[J].生物学杂志,2010,27(6):72-75.

本文来源:https://www.bwwdw.com/article/6c85.html

Top