《基因组学、蛋白组学》由会员分享,可在线阅读,更多相关《基因组学、蛋白组学(199页珍藏版)》请在金锄头文库上搜索。
1、第三章第三章 基因组和基因组学基因组和基因组学基因(基因(gene)的概念)的概念定义:基因是决定一定功能产物定义:基因是决定一定功能产物的的dna序列(片断),是遗传的结序列(片断),是遗传的结构和功能单位。构和功能单位。功能产物:功能产物:rna和蛋白质和蛋白质染色体组染色体组(chromosome set )每个生殖细胞中的全部染色体每个生殖细胞中的全部染色体称为一个染色体组。人体体细胞内称为一个染色体组。人体体细胞内含两个染色体组。含两个染色体组。基因组(基因组(genome)每个染色体组的每个染色体组的dna构成一个基构成一个基因组。广义的基因组包括细胞核染色体因组。广义的基因组包括
2、细胞核染色体基因组和细胞质中的线粒体基因组。基因组和细胞质中的线粒体基因组。 是一个细胞或一种生物体的整套遗是一个细胞或一种生物体的整套遗传物质传物质基因组学(基因组学(genomics) 是指对所有基因进行基因组作图,是指对所有基因进行基因组作图,核苷酸序列分析,基因定位和基因功能核苷酸序列分析,基因定位和基因功能分析。分析。第一节第一节原核生物基因组原核生物基因组原核生物的生命活动原核生物的生命活动可进行基因复制可进行基因复制复杂的代谢活动复杂的代谢活动适应环境的变化适应环境的变化获取自身所需的能量获取自身所需的能量合成自身生长所需的原料合成自身生长所需的原料调节自身的酶系统组成及功能调节
3、自身的酶系统组成及功能调节细胞内某种蛋白质的数量调节细胞内某种蛋白质的数量一、原核生物基因组一般特征一、原核生物基因组一般特征dna较小,一般为较小,一般为106107碱基对碱基对基因数目较少,大约为基因数目较少,大约为3500个基因个基因通常为一条环状双链通常为一条环状双链dna(dsdna)只有一个只有一个dna复制起始点复制起始点gc含量差异很大,含量差异很大,25u%之间,可之间,可用于推测细菌的种类用于推测细菌的种类(一)原核生物的类核结构(一)原核生物的类核结构基因组基因组dna位于细胞中央的核区,位于细胞中央的核区,无核膜无核膜形成类核结构,中央为形成类核结构,中央为rna和
4、支架和支架蛋白,外围是双链闭环的超螺旋蛋白,外围是双链闭环的超螺旋dna原核基因组类核结构原核基因组类核结构(二)原核生物的操纵子结构(二)原核生物的操纵子结构是指数个功能上相关联的结构基因串联是指数个功能上相关联的结构基因串联在一起,连同上游的调控区(包括调节在一起,连同上游的调控区(包括调节基因、启动子、操纵基因)以及下游的基因、启动子、操纵基因)以及下游的转录终止信号,共同组成的一个基因表转录终止信号,共同组成的一个基因表达单位。达单位。(三)原核生物的结构基因(三)原核生物的结构基因结构基因是连续的,无内含子成分结构基因是连续的,无内含子成分多顺反子结构多顺反子结构多数为单拷贝基因,编
5、码多数为单拷贝基因,编码rrna、trna的基因为多拷贝的基因为多拷贝结构基因的编码顺序一般不重叠结构基因的编码顺序一般不重叠基因重叠是指基因组基因重叠是指基因组dna中某些顺序被两中某些顺序被两个及以上基因所共用个及以上基因所共用(四)具有编码同功酶的基因(四)具有编码同功酶的基因 表达功能相同的产物的一类基因,表达功能相同的产物的一类基因,但基因结构不完全相同。但基因结构不完全相同。二、质粒二、质粒质粒质粒(plasmid)指细菌细)指细菌细胞染色体以胞染色体以外,能独立外,能独立复制并稳定复制并稳定遗传的共价遗传的共价闭合环状闭合环状dna分子分子(一)质粒的结构及理化性质(一)质粒的结
6、构及理化性质环状双链超螺旋环状双链超螺旋dna分子分子分子量分子量4 1061 108d可发生构象变化,出现超螺旋、半开环、可发生构象变化,出现超螺旋、半开环、线状三种构象线状三种构象具有较强的抗切割和抗变性的能力具有较强的抗切割和抗变性的能力(二)质粒的命名与分类(二)质粒的命名与分类命名:命名:用用p代表质粒,后面用两个大写字代表质粒,后面用两个大写字母代表作者或实验室名称及编号。如母代表作者或实验室名称及编号。如puc118分类:分类:可根据复制机制、功能、转移方可根据复制机制、功能、转移方式、大小以及对宿主的依赖程度不同进式、大小以及对宿主的依赖程度不同进行分类。行分类。复制机制复制机
7、制严紧型质粒严紧型质粒松弛型质粒松弛型质粒质粒功能质粒功能f质粒(性质粒)质粒(性质粒)r质粒(抗药性质粒)质粒(抗药性质粒)col质粒(大肠杆菌素生长因子质粒(大肠杆菌素生长因子)转移方式转移方式结合型质粒结合型质粒可移动型质粒可移动型质粒自传递型质粒自传递型质粒质粒的宿主范围质粒的宿主范围窄宿主谱型质粒窄宿主谱型质粒广宿主谱型质粒广宿主谱型质粒(三)质粒的生物学特性(三)质粒的生物学特性可移动性;可移动性;自我复制的能力;自我复制的能力;携带筛选标记(抗药性基因、营携带筛选标记(抗药性基因、营养缺陷型基因、抗重金属基因、养缺陷型基因、抗重金属基因、抗紫外线抗紫外线x射线抗性基因);射线抗性
8、基因);不相容性。不相容性。pbr322 质粒物理图谱质粒物理图谱三、可移动的三、可移动的dna序列序列定义定义:又称转座因子(:又称转座因子(tranposable element)或转座元件。是一类在细菌染)或转座元件。是一类在细菌染色体、质粒或噬菌体之间自行移动并具有色体、质粒或噬菌体之间自行移动并具有转位特性的独立转位特性的独立dna序列。是基因重组的序列。是基因重组的一种方式。一种方式。分类分类:可分为三类:可分为三类插入序列插入序列转座子转座子可转座的噬菌体可转座的噬菌体(一)插入序列(一)插入序列插入序列插入序列(insertion sequence,is): 具有转座能力的简单
9、遗传因子,长度一具有转座能力的简单遗传因子,长度一般小于般小于2kb。is因子只含有与转座有关的基因与序因子只含有与转座有关的基因与序列。共同特征是在其末端都具有一段反向列。共同特征是在其末端都具有一段反向的重复序列(的重复序列(ir)。(二)转座子(二)转座子转座子转座子(transposons):):每个转座子都带有每个转座子都带有3个基因:一个是编个基因:一个是编码对氨苄青霉素抗性的码对氨苄青霉素抗性的内酰胺酶内酰胺酶(-lactamase)基因,其它二个是编码与转基因,其它二个是编码与转座作用有关的基因(座作用有关的基因(tnpa和和tnpr)。)。(三)可转座的噬菌体(三)可转座的噬
10、菌体可转座的噬菌体可转座的噬菌体(transposable phage):是一类温和型噬菌体,如是一类温和型噬菌体,如mu噬菌体。噬菌体。(四)转座子的遗传效应(四)转座子的遗传效应引起突变引起突变引入新的基因引入新的基因基因重排基因重排第二节第二节病毒基因组病毒基因组病毒的生物学特性病毒的生物学特性结构简单,不能独自复制结构简单,不能独自复制依赖宿主细胞完成复制依赖宿主细胞完成复制完整的病毒颗粒由核酸和蛋白质完整的病毒颗粒由核酸和蛋白质组成组成一、病毒基因组特征一、病毒基因组特征分子较小,一般为分子较小,一般为1.51033.6106,基因数少;基因数少;每种病毒只含一种核酸(每种病毒只含一
11、种核酸(rna或或dna),),可为双链或单链、环状或线性;可为双链或单链、环状或线性;核酸分正链和负链,与核酸分正链和负链,与mrna序列一致的序列一致的为正链,与为正链,与mrna序列互补的为负链;序列互补的为负链;反转录病毒(逆转录病毒)是一类特殊类反转录病毒(逆转录病毒)是一类特殊类型的单链正链型的单链正链rna病毒,含有病毒,含有rna指导的指导的dna聚合酶,能使聚合酶,能使rna反转录生成反转录生成dna。一、病毒基因组特征一、病毒基因组特征基因组中有基因重叠现象,能携带较多的基因组中有基因重叠现象,能携带较多的遗传信息;遗传信息;有操纵子结构和相关基因丛集;有操纵子结构和相关基
12、因丛集;感染真核细胞的病毒基因内部含有内含子;感染真核细胞的病毒基因内部含有内含子;少或无重复序列;少或无重复序列;基因组中编码序列占基因组中编码序列占90%以上;以上;基因组多为单倍体;基因组多为单倍体;含有不规则结构基因含有不规则结构基因病毒基因组结构病毒基因组结构二、几种典型的病毒基因组二、几种典型的病毒基因组sv40病毒基因组病毒基因组:又称为猴猿病毒又称为猴猿病毒40,分离于猴肾细胞。分离于猴肾细胞。双链环状双链环状dna。引起细胞空泡变性引起细胞空泡变性或诱发肉瘤。或诱发肉瘤。是分子病毒学研究是分子病毒学研究的工具。的工具。sv40病毒转录后加工病毒转录后加工二、几种典型的病毒基因
13、组二、几种典型的病毒基因组腺病毒基因组:腺病毒基因组:线状双链线状双链dna全长全长36kb含轻链(含轻链(l链)链) 重链(重链(h链),链),5均与蛋白质均与蛋白质结合结合l链与链与h链可分链可分开自行成环开自行成环二、几种典型的病毒基因组二、几种典型的病毒基因组乙型肝炎病毒基因组:乙型肝炎病毒基因组:双链环状双链环状dna两条链长度不等,两条链长度不等,长链为负链长链为负链l(););短链为正链短链为正链s( )正、负链正、负链5为粘性末为粘性末端端hbv dnahbv dna复制周期复制周期二、几种典型的病毒基因组二、几种典型的病毒基因组hiv病毒基因组:病毒基因组:含两条相同的正链含
14、两条相同的正链rna5端、端、3端各有一端各有一ltrhiv复制过程二、几种典型的病毒基因组二、几种典型的病毒基因组丙型肝炎病毒基因组:丙型肝炎病毒基因组:单链正链单链正链rna病毒,链长约病毒,链长约9.5kb 整个基因组只有一个整个基因组只有一个orf,编码,编码3011或或3010个氨基酸个氨基酸5有一长度和序列非常稳定的保守序列(非编码区有一长度和序列非常稳定的保守序列(非编码区utr),由),由324341nt组成,是临床诊断的靶序列。组成,是临床诊断的靶序列。第三节第三节真核生物基因组真核生物基因组一、真核基因组一般特征一、真核基因组一般特征分细胞核基因组和细胞核外基因组分细胞核基
15、因组和细胞核外基因组细胞核基因组含有两份同源基因组(二倍体)细胞核基因组含有两份同源基因组(二倍体)核外基因组可有多个拷贝核外基因组可有多个拷贝基因组庞大,但非编码序列占基因组庞大,但非编码序列占90%以上以上转录产物为单顺反子转录产物为单顺反子细胞核基因组存在重复序列细胞核基因组存在重复序列基因是不连续的断裂基因基因是不连续的断裂基因线性双链线性双链dna分子,眼型复制模式分子,眼型复制模式真核生物基因结构真核生物基因结构(一)单顺反子结构(一)单顺反子结构单顺反子单顺反子(monocistron) 一个结构基因经过转录生成一一个结构基因经过转录生成一个单顺反子个单顺反子mrna分子,翻译成
16、分子,翻译成1条多肽链。条多肽链。(二)断裂基因(二)断裂基因断裂基因断裂基因(split gene) 真核细胞的结构基因内部大多由不真核细胞的结构基因内部大多由不连续的几个编码序列所组成,之间插入连续的几个编码序列所组成,之间插入非编码的间隔序列(非编码的间隔序列(intervening sequences)。)。 真核生物基因之间存在非编码区,真核生物基因之间存在非编码区,称为间隔区称为间隔区dna(spacer dna),),是结构基因彼此分开。是结构基因彼此分开。内含子与外显子内含子与外显子1.内含子(内含子(intron):是结构基因的非编码):是结构基因的非编码序列,与编码序列间隔
17、排列。序列,与编码序列间隔排列。2.外显子(外显子(exon):是结构基因的编码序列。是结构基因的编码序列。基因转录后,剪去内含子,拼接外显子成基因转录后,剪去内含子,拼接外显子成为成熟的为成熟的mrna(三)重复序列(三)重复序列高度重复序列高度重复序列在真核生物基因组中普遍存在,约占在真核生物基因组中普遍存在,约占10`%,占人类基因组约,占人类基因组约20%重复频率达重复频率达106以上以上重复片段重复片段10300bp复性速率高复性速率高可为反向重复序列或顺向重复序列可为反向重复序列或顺向重复序列反向重复序列反向重复序列指两个顺序相同的拷贝在指两个顺序相同的拷贝在dna链上呈链上呈
18、反向排列,其间可间插间隔顺序或无反向排列,其间可间插间隔顺序或无间隔顺序(又称回文结构),与基因间隔顺序(又称回文结构),与基因表达调控有关。表达调控有关。反向重复序列反向重复序列反向重复序列反向重复序列反向重复序列复性时,形成十字结构反向重复序列复性时,形成十字结构串联重复序列串联重复序列指固定的重复单位头尾相连形成重复顺指固定的重复单位头尾相连形成重复顺序片段序片段重复单位多为重复单位多为27bp组成组成与主体与主体dna的碱基组成不同,用的碱基组成不同,用cscl2密度梯度离心,可在主带的两侧密度梯度离心,可在主带的两侧出现小带,称为卫星出现小带,称为卫星dna。卫星dna卫星卫星dna
19、大卫星大卫星dna:根据浮力密度不同可分为:根据浮力密度不同可分为、和和、卫星卫星dna小卫星小卫星dna:位于端粒及端粒附近,显示:位于端粒及端粒附近,显示丰富的限制性片段长度多态性丰富的限制性片段长度多态性微卫星微卫星dna:重复单位:重复单位25bp,重复,重复1060次,重复总长度次,重复总长度150bp,存在,存在于内含子、间隔于内含子、间隔dna以及编码区中。目前以及编码区中。目前已成为已成为dna分析的遗传标记。分析的遗传标记。高度重复序列的主要功能功能高度重复序列的主要功能功能参与复制水平的调节参与复制水平的调节:反向重复序列常位于:反向重复序列常位于dna复制起始点附近,是蛋
20、白质和酶的结合点。复制起始点附近,是蛋白质和酶的结合点。参与基因表达调控参与基因表达调控:反向重复序列可形成发夹结:反向重复序列可形成发夹结构,转录到构,转录到hnrna分子中可稳定分子中可稳定rna分子免遭分子免遭降解。降解。参与转位作用参与转位作用:转位因子的末端包含反向重复序:转位因子的末端包含反向重复序列。列。可作为可作为dna指纹反映个体特征。指纹反映个体特征。与染色体构象、着丝粒形成有关与染色体构象、着丝粒形成有关中度重复序列中度重复序列重复序列重复数十重复序列重复数十数万次数万次复性速度介于高度重复序列与低度重复序复性速度介于高度重复序列与低度重复序列之间列之间大多不编码蛋白质,
21、但中度重复序列有一大多不编码蛋白质,但中度重复序列有一部分是结构基因,如部分是结构基因,如hla、rrna 、trna、组蛋白、免疫球蛋白等结构基因、组蛋白、免疫球蛋白等结构基因一般具有种属特异性,可作为一般具有种属特异性,可作为dna标记。标记。低度重复序列低度重复序列低度重复序列中在单倍体基因组中低度重复序列中在单倍体基因组中只出现一次或数次只出现一次或数次占基因组占基因组50�%复性速度慢复性速度慢贮存大量遗传信息贮存大量遗传信息(四)基因家族(四)基因家族基因家族(基因家族(gene family):): 是指核苷酸序列或编码产物的结构上具是指核苷酸序列或编码产物的结构上具有一定程
22、度同源性的一组基因。同一家族有一定程度同源性的一组基因。同一家族的基因成员由同一祖先基因进化而来。的基因成员由同一祖先基因进化而来。核苷酸序列相同,如核苷酸序列相同,如trna基因。基因家基因。基因家族成员成簇分布在一条染色体上,同时发族成员成簇分布在一条染色体上,同时发挥作用。挥作用。核苷酸序列高度同源,如珠蛋白基因家族。核苷酸序列高度同源,如珠蛋白基因家族。可散在地分布于不同的染色体上,编码一可散在地分布于不同的染色体上,编码一组功能相关的蛋白质。组功能相关的蛋白质。编码的蛋白质高度同源,但核苷酸序列不编码的蛋白质高度同源,但核苷酸序列不同,如同,如src癌基因家族。其产物均有癌基因家族。
23、其产物均有250个氨基酸序列的同源蛋白激酶结构域。个氨基酸序列的同源蛋白激酶结构域。基因家族的特点基因家族的特点 是由一组多基因家族及单基因家是由一组多基因家族及单基因家族组成的更大的基因家族。它们的结族组成的更大的基因家族。它们的结构有程度不同的同源性,但起源于相构有程度不同的同源性,但起源于相同的祖先基因。如免疫球蛋白基因超同的祖先基因。如免疫球蛋白基因超家族。家族。超基因家族(超基因家族(gene superfamily) 在多基因家族中,某些与正常功能基在多基因家族中,某些与正常功能基因在核苷酸序列上相似,但不能转录或转因在核苷酸序列上相似,但不能转录或转录后生成物功能基因产物的录后生
24、成物功能基因产物的dna序列称为序列称为假基因。用假基因。用表示。表示。 假基因原来也是有功能的基因,由于发假基因原来也是有功能的基因,由于发生缺失、倒位、点突变等,成为无功能基生缺失、倒位、点突变等,成为无功能基因。可能为进化的痕迹。因。可能为进化的痕迹。假基因(假基因(pseudogene)(五)端粒(五)端粒端粒是位于染色体端粒是位于染色体3末端的一段富含末端的一段富含g的的dna重复序列,端粒和端粒结合蛋白组成重复序列,端粒和端粒结合蛋白组成核蛋白复合物,广泛存在于真核生物细胞核蛋白复合物,广泛存在于真核生物细胞中,具有特殊的功能。中,具有特殊的功能。(六)(六)dna多态性多态性基因
25、组中某个基因在同种生物的不同基因组中某个基因在同种生物的不同个体中,同时存在两种或以上的变异个体中,同时存在两种或以上的变异型或基因型的现象,称为基因多态性型或基因型的现象,称为基因多态性(gene polymorphism)。)。限制性片段长度多态性限制性片段长度多态性(restriction fragment length restriction fragment length polymorphism polymorphism,rflprflp)分为两类:分为两类:一类是由于限制性内切酶位点上发生了单个碱一类是由于限制性内切酶位点上发生了单个碱基突变,导致酶切位点的丢失或获得基突变,导致
26、酶切位点的丢失或获得一类是由于基因内部发生缺失、插入、串联重一类是由于基因内部发生缺失、插入、串联重复序列拷贝数变化,导致酶切位点的相对位置复序列拷贝数变化,导致酶切位点的相对位置发生改变。发生改变。短串联重复序列短串联重复序列(short tandem repeat, strshort tandem repeat, str)分布广泛,每隔分布广泛,每隔1520kb就有一个就有一个str位点,占基因组的位点,占基因组的10%,具高度多态性,是非常重要的遗传标记具高度多态性,是非常重要的遗传标记主要用途:制作人类基因遗传图谱的;目主要用途:制作人类基因遗传图谱的;目的基因筛选;个体识别和亲子鉴定
27、;基因的基因筛选;个体识别和亲子鉴定;基因诊断诊断str与疾病的关系与疾病的关系str主要以三个核苷酸为重复单位,重复次数超主要以三个核苷酸为重复单位,重复次数超过正常个体的上限,即可出现一些遗传性疾病。过正常个体的上限,即可出现一些遗传性疾病。脆性脆性x综合征:综合征:5非翻译区非翻译区ccg拷贝数过度增拷贝数过度增加加100次。(正常人中的次。(正常人中的cgg重复次数重复次数30 min spray time for 1 m ml samplehighly charged molecules are selected by ac modulation of transverse fiel
28、ds四极质谱过滤四极质谱过滤 鉴定和注释蛋白质的路线鉴定和注释蛋白质的路线 通过肽质谱指纹图(通过肽质谱指纹图(peptide mass fingerprinting,pmf)和数据库搜寻)和数据库搜寻匹配匹配 通过测出样品中部分肽段二级质谱信息或通过测出样品中部分肽段二级质谱信息或氨基酸序列标签和数据库搜寻匹配氨基酸序列标签和数据库搜寻匹配 质谱技术在蛋白组学研究中的应用质谱技术在蛋白组学研究中的应用蛋白质的序列分析蛋白质的序列分析 通过串联质谱(通过串联质谱(tandem-ms)实现)实现研究蛋白质修饰研究蛋白质修饰 磷酸化磷酸化 糖基化糖基化 n-端封闭端封闭 (七)蛋白质分子结构分析蛋
29、白质分子结构分析溶液中蛋白质分子结构分析方法溶液中蛋白质分子结构分析方法 磁共振磁共振(nuclear magnetic resonance,nmr)、)、圆二色谱法、激光拉曼光谱法、荧光光谱法、圆二色谱法、激光拉曼光谱法、荧光光谱法、紫外差光谱法、氢放射性核素交换法紫外差光谱法、氢放射性核素交换法晶体蛋白分子结构分析晶体蛋白分子结构分析 x射线衍射分析法、小角中子衍射法射线衍射分析法、小角中子衍射法(八)蛋白质芯片技术(八)蛋白质芯片技术蛋白质芯片技术是一种高通量、平行、自蛋白质芯片技术是一种高通量、平行、自动化、微型化的蛋白质表达、结构和功能动化、微型化的蛋白质表达、结构和功能分析技术。分
30、为生物化学芯片、化学性芯分析技术。分为生物化学芯片、化学性芯片、生物反应器芯片三类。片、生物反应器芯片三类。蛋白质芯片第三节第三节蛋白质相互作用研究蛋白质相互作用研究一、蛋白质相互作用研究方法一、蛋白质相互作用研究方法酵母双杂交系统酵母双杂交系统(yeast two-hybrid system)噬菌体表面显示技术噬菌体表面显示技术(phage display)基于质谱的蛋白质相互作用研究方法基于质谱的蛋白质相互作用研究方法 亲和层析亲和层析 多维液相色谱耦联质谱技术多维液相色谱耦联质谱技术(mdlc-esi-ms/ms) 免疫共沉淀耦联质谱技术;免疫共沉淀耦联质谱技术; 生物传感器耦联质谱技术
31、;生物传感器耦联质谱技术; 串联亲和纯化耦联质谱技术串联亲和纯化耦联质谱技术 酵母双杂交系统酵母双杂交系统 dna-bddna-bd具有与报告具有与报告基因转录调控区特异结基因转录调控区特异结合的功能,合的功能,dna-addna-ad则具则具有活化转录的功能。有活化转录的功能。报告基因dna-bd和和dna-ad分开时不能激活转录,只分开时不能激活转录,只有当两者在空间上接近时,才能呈现转录因子的有当两者在空间上接近时,才能呈现转录因子的活性。活性。只有当蛋白质只有当蛋白质x与蛋白质与蛋白质y间发生相互作用时,才间发生相互作用时,才能激活报告基因的转录,而当两者单独作用时均能激活报告基因的转
32、录,而当两者单独作用时均无此功能无此功能 。二、蛋白质二、蛋白质-核酸相互作用核酸相互作用研究方法研究方法凝胶滞后实验凝胶滞后实验滤膜结合法滤膜结合法甲基化干扰试验甲基化干扰试验dnase足纹分析足纹分析核酸核酸-蛋白质杂交实验蛋白质杂交实验凝胶滞后试验凝胶滞后试验蛋白质可以与末端标记的核蛋白质可以与末端标记的核酸探针特异性结合,所形成酸探针特异性结合,所形成的复合物电泳时在凝胶中的的复合物电泳时在凝胶中的泳动速度比未与蛋白结合的泳动速度比未与蛋白结合的游离探针慢,即表现为相对游离探针慢,即表现为相对滞后滞后该实验可以评价蛋白与核酸该实验可以评价蛋白与核酸结合的特异性结合的特异性滤膜结合法滤膜
33、结合法 利用硝酸纤维素滤膜不能结合双链利用硝酸纤维素滤膜不能结合双链dnadna,但可与蛋白质结合的特性,将与蛋白质结合的但可与蛋白质结合的特性,将与蛋白质结合的dnadna片段与游离片段与游离dnadna片段分离开。片段分离开。甲基化干扰甲基化干扰将将dna dna 甲基化后与蛋白质进行反甲基化后与蛋白质进行反应,只有在结合位点上未被修饰应,只有在结合位点上未被修饰的的dna dna 片段才能与蛋白质结合。片段才能与蛋白质结合。用特殊方法将用特殊方法将dnadna从被修饰的碱基从被修饰的碱基处进行切割,并经电泳分离。处进行切割,并经电泳分离。未结合蛋白质的未结合蛋白质的dnadna可在随机修
34、饰可在随机修饰的位点被切割,而结合蛋白质的的位点被切割,而结合蛋白质的dnadna在结合位点上未被修饰而不能在结合位点上未被修饰而不能被切割,由此可获得蛋白质与核被切割,由此可获得蛋白质与核酸定位结合的信息。酸定位结合的信息。dnadna探针的末端标记探针的末端标记及探针的甲基化及探针的甲基化蛋白质与甲基化探针的结合及蛋白质与甲基化探针的结合及 dnadna蛋白质结合探针的分离蛋白质结合探针的分离结合物及对照探针结合物及对照探针的化学切割的化学切割dnadna片段的序列测定片段的序列测定dnasednase足纹足纹目前广泛用于蛋白质精确结合位点的研究方法目前广泛用于蛋白质精确结合位点的研究方法
35、原理:原理: dnasednase可以随机水解核苷酸中的磷酸二可以随机水解核苷酸中的磷酸二酯键,将酯键,将dnadna切成单核苷酸,而结合有蛋白质切成单核苷酸,而结合有蛋白质的的dnadna免于免于dnasednase的水解。的水解。 dnasednasednasednase足纹分析原理示意图足纹分析原理示意图足纹分析原理示意图足纹分析原理示意图核酸核酸- -蛋白质杂交实验蛋白质杂交实验tbetbe缓冲液中缓冲液中dnadna蛋白质杂交蛋白质杂交放射自显影放射自显影 用于鉴定蛋白质与用于鉴定蛋白质与dnadna的特异性结合和确定结合蛋白的特异性结合和确定结合蛋白质的分子量。质的分子量。 基本步
36、骤:基本步骤:蛋白质杂交蛋白质杂交sds-pagesds-page转移至转移至ncnc膜或膜或nylonnylon膜膜缓慢复性、封闭、预杂交缓慢复性、封闭、预杂交加入同位素标记的加入同位素标记的dnadna片段作探针片段作探针多次洗膜多次洗膜第四节第四节蛋白质数据库及其应用蛋白质数据库及其应用一、蛋白质组数据库一、蛋白质组数据库(proteome database)蛋白质组数据库被认为是蛋白质组知识的蛋白质组数据库被认为是蛋白质组知识的储存库,包含所有鉴定的蛋白质信息,如储存库,包含所有鉴定的蛋白质信息,如蛋白质的顺序、核苷酸顺序、蛋白质的顺序、核苷酸顺序、2-d page、3-d结构、翻译后
37、的修饰、基因组及代结构、翻译后的修饰、基因组及代谢数据库等谢数据库等(一)蛋白质序列数据库(一)蛋白质序列数据库swiss-prot swiss-prot的网址是的网址是:http:/www.ebi.ac.uk/swissprot/。pir和和psd pir和和psd的网址是的网址是:http:/pir.georgetown.edu/。 数据库下载地址是数据库下载地址是:ftp:/nbrfa.georgetown.edu/pir/。 swiss-prot是经过注释的蛋白质序列数据库,由欧洲生物信是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所息学研究所(ebi)维护。数据库由蛋白质序列条维
38、护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。病的关系、序列变异体和冲突等信息。利用序列提取系统利用序列提取系统(srs)可以方便地检索可以方便地检索swiss-prot和其它和其它ebi的数据库。的数据库。swiss-prot只接受直接测序获得的
39、蛋白质序只接受直接测序获得的蛋白质序列,序列提交可以在其列,序列提交可以在其web页面上完成。页面上完成。pir和和psd国际蛋白质序列数据库国际蛋白质序列数据库(psd)是由蛋白质信息资源是由蛋白质信息资源(pir)、慕尼黑慕尼黑蛋白质序列信息中心蛋白质序列信息中心(mips)和日本国际蛋白质序列数据库和日本国际蛋白质序列数据库(jipid)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋条蛋白质序列白质序列(至
40、至99年年9月月),其中包括来自几十个完整基因组的蛋白质序,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。类,一半以上还按蛋白质超家族进行了分类。psd的注释中还包括对的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶底物相条目之间的索引,这些内部索引帮助用户在包括复合物、酶底物相互作用、活化和调控级联和具有共同特
41、征的条目之间方便的检索。每互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。季度都发行一次完整的数据库,每周可以得到更新部分。psd数据库有几个辅助数据库,如基于超家族的非冗余库等。数据库有几个辅助数据库,如基于超家族的非冗余库等。pir提提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括索,包括blast、fasta等;结合序列相似性、注释信息和蛋白质等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索家族信息的
42、高级搜索,包括按注释分类的相似性搜索、结构域搜索genefind等。等。(二)蛋白质结构数据库pdb rcsb的的pdb数据库网址是数据库网址是:http:/www.rcsb.org/pdb/。scop scop的网址是的网址是:http:/scop.mrc-lmb.cam.ac.uk/scop/。prosite prosite的网址是的网址是:http:/www.expasy.ch/prosite/。scop蛋白质结构分类蛋白质结构分类(scop)数据库详细描述了已知数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关
43、系;超家族,描述远源家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子的进化关系;折叠子(fold),描述空间几何结构,描述空间几何结构的关系;折叠类,所有折叠子被归于全的关系;折叠类,所有折叠子被归于全、全、全、/、和多结构域等几个大类。和多结构域等几个大类。scop还提还提供一个非冗余的供一个非冗余的astrail序列库,这个库通常序列库,这个库通常被用来评估各种序列比对算法。此外,被用来评估各种序列比对算法。此外,scop还还提供一个提供一个pdb-isl中介序列库,通过与这个库中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远中序列的两两比对,可以找到与未知结
44、构序列远缘的已知结构序列。缘的已知结构序列。pdb蛋白质数据仓库蛋白质数据仓库(pdb)是国际上唯一的生物大分是国际上唯一的生物大分子结构数据档案库,由美国子结构数据档案库,由美国brookhaven国家国家实验室建立。实验室建立。pdb收集的数据来源于收集的数据来源于x光晶体衍光晶体衍射和核磁共振射和核磁共振(nmr)的数据,经过整理和确认后的数据,经过整理和确认后存档而成。目前存档而成。目前pdb数据库的维护由结构生物信数据库的维护由结构生物信息学研究合作组织息学研究合作组织(rcsb)负责。负责。rcsb的主服的主服务器和世界各地的镜像服务器提供数据库的检索务器和世界各地的镜像服务器提供
45、数据库的检索和下载服务,以及关于和下载服务,以及关于pdb数据文件格式和其它数据文件格式和其它文档的说明,文档的说明,pdb数据还可以从发行的光盘获得。数据还可以从发行的光盘获得。使用使用rasmol等软件可以在计算机上按等软件可以在计算机上按pdb文件文件显示生物大分子的三维结构。显示生物大分子的三维结构。prositeprosite数据库收集了生物学有显著意义的蛋白质位点数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。一个未知功能的蛋白质序列应该属于
46、哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过列模式,这样就可能通过prosite的搜索找到隐含的功的搜索找到隐含的功能能motif,因此是序列分析的有效工具。,因此是序列分析的有效工具。prosite中涉中涉及的序列模式包括酶的催化位点、配体结合位点、与金属及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋离子结合的残基、二硫键的半胱氨酸、与小分子或其
47、它蛋白质结合的区域等;除了序列模式之外,白质结合的区域等;除了序列模式之外,prosite还包还包括由多序列比对构建的括由多序列比对构建的profile,能更敏感地发现序列与,能更敏感地发现序列与profile的相似性。的相似性。prosite的凯发k8网页登录主页上提供各种相关检的凯发k8网页登录主页上提供各种相关检索服务。索服务。(三)蛋白质直系同源簇数据库(三)蛋白质直系同源簇数据库蛋白质直系同源簇蛋白质直系同源簇(cogs)数据库是对细菌、藻类和真核数据库是对细菌、藻类和真核生物的生物的21个完整基因组的编码蛋白,根据系统进化关系个完整基因组的编码蛋白,根据系统进化关系分类构建而成。分类构建而成。cog库对于预测单个
48、蛋白质的功能和整库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用个新基因组中蛋白质的功能都很有用。利用cognitor程序,可以把某个蛋白质与所有程序,可以把某个蛋白质与所有cogs中的蛋白质进行比中的蛋白质进行比对,并把它归入适当的对,并把它归入适当的cog簇。簇。cog库提供了对库提供了对cog分分类数据的检索和查询,基于类数据的检索和查询,基于web的的cognitor服务,服务,系统进化模式的查询服务等。系统进化模式的查询服务等。cog库的网址是:库的网址是:http:/www.ncbi.nlm.nih.gov/cog。下载下载cog库和库和cognitor程序在:程序在:ftp:/ncbi.nlm.nih.gov/pub/cog。(四)(四)dip数据库数据库dip数据库主要提供蛋白质数据库主要提供蛋白质-蛋白质之蛋白质之间相互作分析蛋白质相互作用的实验技间相互作分析蛋白质相互作用的实验技术等方面的信息。术等方面的信息。数据库网址:数据库网址: http:/dip.doe-mbi.ucla.edu/.二、蛋白质数据库的应用二、蛋白质数据库的应用序列比较序列比较临床诊断临床诊断肿瘤治疗药物的开发肿瘤治疗药物的开发