生物信息学实验指导

更新时间:2023-11-22 20:11:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

生物信息学实验指导

广东药学院 生命科学与生物制药学院

二○一一年三月

第 1 页

目 录

实验1. 生物信息学数据库与软件搜索……………………………1 实验2. 核酸序列的检索……………………………………………2 实验3. 核酸序列分析………………………………………………3 实验4. 多重序列比对及系统发生树的构建………………………5 实验5. PCR 引物设计及评价………………………………………7 实验6. 蛋白质序列分析和结构预测………………………………9

第 2 页

实验一生物信息学数据库和软件的搜索

【实验目的】

熟练掌握上网搜索生物信息学数据库和软件的方法及技能。

【实验内容】

1、搜索生物信息学数据库或者软件

数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。

核酸序列数据库有GenBank, EMBL, DDB等,

蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等, 蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等, 三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,

与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等, 与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等, 文献数据库有Medline, Uncover等。

另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。

2、搜索生物信息学软件

生物信息学软件的主要功能有:分析和处理实验数据和公共数据,加快研究进度,缩短科研时间;提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能;蛋白高级结构预测。如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。

【作业】

1、搜索生物信息学数据库或者软件。搜索出的数据库包括网址、该数据库的介绍、数据库网页截屏。如果搜索的是软件则包括该软件的用途、使用方法、软件图标。(以上搜索的数据库或软件至少完成8个以上)

2、对生物信息学这门课的建议或感想。

注:实验报告要求以电子版的形式完成以上作业,注明专业、学号、姓名后发送到邮箱 23453627@qq.com。

第 3 页

实验二 核酸序列的检索

【实验目的】

1、掌握核酸序列检索的操作方法;

2、熟悉GenBank数据库序列格式及其主要字段的含义; 3、了解EMBL数据库序列格式及其主要字段的含义;

4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存;

【实验内容】

1、使用Entrez信息查询系统检索核酸序列BC060830和NM_000230,连接提取该序列内容,阅读序列格式的解释,理解其含义;

2、GenBank数据库序列格式的FASTA序列格式显示与保存;

3、使用SRS信息查询系统检索核酸序列BC060830,连接提取该序列内容,阅读序列格式的解释,理解其含义;

【作业】

1、在GenBank数据库中查询核酸序列NM_000230、下载(以两种格式保存:

GenBank与Fasta)、写出GenBank格式主要字段含义。

2、在EMBL数据库中查询核酸序列BC060830、下载(以两种格式保存:complete entries与Fasta)、写出complete entries格式主要字段含义。

第 4 页

实验三 核酸序列分析

【实验目的】

1、掌握已知或未知序列接受号的核酸序列检索的基本步骤; 2、掌握使用BioEdit软件进行核酸序列的基本分析; 2、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析); 3、了解基因的电子表达谱分析。 【实验原理】

针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。 1. 重复序列分析

对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 2. 数据库搜索

把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析

统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 4. 启动子分析

启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比

第 5 页

本文来源:https://www.bwwdw.com/article/1lgv.html

Top