在线试读

get_product_contenthtml     第1章 基础知识简介
       生物系统是复杂的。理论上表示一个生物系统一般采用下列几种方法:① 数据(常采用表格形式),其特点是准确但不直观;② 网络(由节点和边组成),其特点是直观但不准确(被简化了);③ 化学反应式(或生化反应网络),其特点是准确但复杂;④ 数学方程,其特点是直观和定量化。本书将交替地采用③和④表示方法,主要针对生化反应系统建立合理的数学模型,兼顾了准确性、直观性和定量化等特点。
       基于实验数据,一个生物系统可以映射为某个生化反应网络。这些生化反应网络通常分为基因调控网、蛋白质相互作用网、代谢控制网和信号转导网,其中,基因调控网是核心。系统生物学就是要研究各种分子网络,通过剖析这些网络并综合这些网络信息为系统信息,以达到把握整个系统运行规律的目的。系统生物学的终极研究目标是:为生物系统建立一个合理的数学模型,使其能够反映该系统的真实性。
       基因(又称为遗传因子)是具有遗传效应的DNA片段(部分病毒如烟草花叶病毒、HIV(人类免疫缺陷病毒)的遗传物质是 RNA)。人类有两万多个基因,每个细胞具有遗传的全能性,即包含所有的遗传基因,但对特定的细胞,某些基因可能表达,其他基因可能不表达。正是由于基因表达的特异性,才形成特定的人体组织或器官。
       基因支持着生命的基本构造和性能。20世纪50年代以后,随着分子遗传学的发展,尤其是沃森和克里克(F.Crick)提出 DNA双螺旋结构以后,人们进一步认识到基因的本质,即基因是具有遗传效应的 DNA片段。研究表明,每条染色体只含有 1 或 2个 DNA分子,每个 DNA分子上可有多个基因,每个基因含有成百上千个脱氧核苷酸。自从 RNA病毒发现之后,基因不仅存在于 DNA上,还存在于RNA上。由于不同基因的脱氧核糖核苷酸的排列顺序(碱基序列)不同,不同的基因含有不同的遗传信息。基因按其功能可分为两类:看家基因(house-keeping gene)和组织特异性基因(tissue-speci-c gene)。看家基因是维持细胞大力度优惠限度功能所不可缺少的基因,如编码组蛋白基因、编码核糖体蛋白基因、线粒体蛋白基因、糖酵解酶基因等。这类基因在所有类型的细胞中都进行表达(因为这些基因的产物对于维持细胞的基本结构和代谢功能是必不可少的)。组织特异性基因是指不同的细胞类型中的基因进行差异性表达或在不同的组织中基因表现出明显的表达差异性,其产物赋予各种类型细胞特异的形态结构与特异的生理功能。揭示基因表达机制既是理解基因调控网的基础,也是理解基本的细胞内部过程的基础,同时对理解各种疾病的发生和发展过程具有重要意义。
       尽管基因表达过程非常复杂,但刻画遗传信息流的基本原理仍是生物学上的中心法则。因此,本章内容安排如下:第一,介绍与中心法则有关的基本知识,包括中心法则的基本含义,以及转录过程、翻译过程、选择性剪接、染色质重塑、甲基化等的含义;第二,介绍生化主方程的两种形式,并介绍求解主方程的通用方法;第三,介绍二项矩方法,包括二项矩方程的截取条件、用二项矩重构概率分布的公式等;第四,介绍基于主方程的分子噪声源及其定量化指标,并引入朗之万(Langevin)方程(它是主方程的一种近似,但与 Fokker-Planck 方程等价);第五,介绍分析求解主方程时需要用到的超几何函数方面的知识;第六,介绍量子力学中的某些符号及其运算。这些基础知识对于基因表达调控网络的数学建模、理论分析、数值模拟等都是必不可少的。
       需要指出的是,关于基因表达调控系统(甚至是一般的生物网络系统)的建模与分析,主要有两种研究思路:一是基于实验数据(属于数据驱动的研究);二是基于生物学机理或实验事实如生物学的中心法则等(属于问题驱动的研究)。本书主要是基于后者,但建模与分析时偶尔也会结合实验数据。其主要目的是从数理的观点揭示基因表达调控系统的运行机制。
       1.1 中心法则
       早期的中心法则有两个版本。第一个版本是于1958年由克里克提出的遗传信息传递的规律,包括由 DNA到 DNA的复制、由 DNA到 RNA的转录和由 RNA到蛋白质的翻译等过程。20世纪 70年代逆转录酶的发现,表明还有由 RNA逆转录成 DNA的机制,是对中心法则的补充和丰富。第二个版本实际是一个修正版本,也是由克里克于 1958年提出的遗传信息传递法则,即遗传信息从 DNA传递至 RNA,再传递至多肽。DNA和 RNA之间的遗传信息传递是双向的,而遗传信息只是单向地从核酸传递给蛋白质,参考示意图 1.1。
       图1.1 描述生物学上中心法则的示意图
       现在较普遍采用的版本:中心法则是指遗传信息从DNA传递给 RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译过程;也可以从 DNA传递给DNA,即完成 DNA的复制过程;DNA与 RNA之间的遗传信息传递是双向的(从RNA到 DNA的传递称为逆转录),而遗传信息只是单向地从核酸流向蛋白质。所有具有细胞结构的生物中的基因表达都遵循这种法则。在某些病毒中的 RNA自我复制(如烟草花叶病毒等)和在某些病毒中能以 RNA为模板逆转录成 DNA的过程(某些致癌病毒)是对中心法则的补充。
       随着基因表达调控系统的深入研究,人们已揭示出基于中心法则所描述的调控方式的各种复杂分子机制。例如,真核细胞的 DNA是由 RNA聚合酶在转录因子的辅助下转录成信使 mRNA,然后,通过 mRNA的 5′端进行封堵(capping)修饰,剪接加工去除内含子,在 3′端添加多聚腺苷酸(polyA)尾巴之后,使不成熟的 mRNA变成成熟的 mRNA,并由相关的输送蛋白质将其送到细胞核外(参考图 1.2(a))。在细胞质中,mRNA会与下游的翻译起始因子相结合,当翻译过程被激活之后,核糖体将顺着 mRNA移动。同时,不同的 tRNA会携带相应的氨基酸结合到核糖体中与 mRNA上的密码子相互匹配,而 tRNA所携带的氨基酸则会有顺序地合成为肽链。最后,合成的多肽链会在细胞质中进行折叠成为一定的构象,并被其他蛋白质所修饰,最终成为有功能的成熟蛋白质。所有这些过程都是生化反应,所有有关的反应式构成一个网络(叫作生化反应网络)。由于考虑问题的角度不同或侧重点不同,有关的生化反应网络可以是相对简单的,也可以是非常复杂的。数学建模时不可能考虑与基因表达有关的所有因素或过程,而应该抓住主要因素或过程,忽视相对次要的因素或过程,只有这样才能获得有意义的结果,才能够更好地解释实验现象。
       图1.2 基因表达过程示意图
       基因表达过程的复杂性主要表现在以下几点:
       (1)基因表达水平或表达谱是动态的,而不是静态的;
       (2)基因表达涉及众多生化反应过程,例如转录(从DNA到不成熟的mRNA)、剪接(从不成熟的 mRNA到成熟的 mRNA)、翻译(从 mRNA到蛋白质)、降解(mRNA或蛋白质的消亡)、运输(如蛋白质从细胞核运输到细胞质、从细胞质运输到细胞外等)、染色质重塑、DNA甲基化、调控(转录因子对基因表达的影响);
       (3)所涉及的生化反应过程如转录、翻译、降解、运输、调控等(即图1.2(b)中的箭头)一般不是单步的,而可以是多步的;
       (4)基因表达涉及许多生物因素,如分子噪声(主要是由于有反应物种的低拷贝数)、时间延迟(由于信息传送的滞后)、非线性性(如反馈调控、多聚体的合成)等。
       考虑基因表达的这些复杂性对于建立合理的生物数学模型是至关重要的。
       为了帮助读者更好地了解基因表达过程,以下给出某些相关名词的解释(其中,A代表腺嘌呤,G 代表鸟嘌呤,T 代表胸腺嘧啶,C 代表胞嘧啶,U 代表尿嘧啶。碱基对是指一对相互匹配且被氢键连接起来的碱基(即 A-T,G-C,A-U 相互作用))。
       1)转录过程
       在RNA聚合酶的催化下,以 DNA为模板合成 mRNA的过程称为转录(trans-cription)。在双链 DNA中,作为转录模板的链称为模板链(template strand)或反义链(antisense strand);而不作为转录模板的链称为编码链(coding strand)或有义链(sense strand),编码链与模板链互补,它与转录产物的差异仅在于 DNA中的 T变为 RNA中的 U。在含多个基因的 DNA双链中,每个基因的模板链并不总是在同一条链上,亦既可作为某些基因模板的一条链,同时也可以是另外一些基因的编码链。转录过程包括三步:启动、延伸和终止。
       (1)启动。RNA聚合酶正确识别 DNA模板上的启动子并形成由酶、DNA和核苷三磷酸构成的三元起始复合物,转录即自此开始。DNA模板上的启动区域常含有 TATAATG 序列,称为普里布诺(Pribnow)盒或 P 盒。复合物中的核苷三磷酸一般为 GTP,少数为 ATP,因而原始转录产物的 5′端通常为鸟苷三磷酸(pppG)或腺苷三磷酸(pppA)。真核 DNA上的转录启动区域也有类似于原核 DNA的启动区结构,在 30bp(即在酶和 DNA结合点的上游 30 核苷酸处,常以 30 表示,bp 为碱基对的简写)附近也含有 TATA结构,称为霍格内斯(Hogness)盒或 TATA盒。第一个核苷三磷酸与第二个核苷三磷酸缩合生成 3′-5′磷酸二酯键后,则启动阶段结束,而进入延伸阶段。
       (2)延伸。σ亚基脱离酶分子留下的核心酶与DNA的结合会变松,因而较容易继续往前移动。核心酶没有模板的专一性,能转录模板上的任何序列,包括在转录后加工时待切除的居间序列。脱离核心酶的σ亚基还可与另外的核心酶结合,参与另一转录过程。随着转录的不断延伸,DNA双链顺次地被打开,并接受新来的碱基对,合成新的磷酸二酯键后,核心酶向前移动,已使用过的模板恢复成原来的双链结构。一般地,合成的 RNA链对 DNA模板具有高度的忠实性。RNA合成的速度为:在原核细胞内为每秒 25~50个核苷酸,而在真核细胞内为每秒 45~100个核苷酸。
       (3)终止。转录的终止包括停止延伸及释放RNA聚合酶和合成的 RNA。在原核生物基因或操作子的末端通常有一段终止序列即终止子,RNA合成就在这里终止。原核细胞转录终止需要一种终止因子 。(四个亚基构成的蛋白质)的帮助。真核生物的 DNA上也可能有转录终止信号:已知真核 DNA转录单元的 3′端均富含AT 的序列(如 AATAA(A)或 ATTAA(A)等),在相隔 0.30bp 之后又出现 TTTT序列(通常是 3~5个 T),这些结构可能与转录终止或者与 3′端添加多聚 A的顺序有关。
       转录后要进行加工,转录后的加工包括:
       (1)剪接(splicing)。一个基因的外显子和内含子都转录在一条原始转录物 RNA分子中,称为前体 mRNA(pre-mRNA),又称为异质的核内 RNA(heterogeneous nu-clear RNA,hnRNA)。因此,前体 mRNA分子既有外显子序列又有内含子序列,另外还包含编码区前面及后面的非翻译序列。这些内含子序列必须除去而把外显子序列连接起来,才能产生成熟的和具有功能的 mRNA分子,这个过程称为 RNA剪接(RNA splicing)。剪接发生在外显子的 30 端的 GT 和内含子 30 端与下一个外显子交界的 AG 处。
       (2)加帽(capping)。几乎所有的真核mRNA端都具有“帽子”结构。虽然真核生物的 mRNA的转录以嘌呤核苷酸三磷酸(pppAG 或 pppG)领头,但在 5′端的一个核苷酸总是 7-甲基鸟核苷三磷酸(m7GpppAGpNp)。mRNA5′端的这种结构称为帽子。不同真核生物的 mRNA具有不同的帽子。mRNA的帽结构功能包括:能被核糖体小亚基识别,促使 mRNA和核糖体的结合;m7Gppp 结构能有效地封闭 RNA5′端,以保护 mRNA免疫 5′核酸外切酶的降解,增强 mRNA