面向工业生物技术的系统生物学

您所在的位置：网站首页 › 系统生物学的研究方向 › 面向工业生物技术的系统生物学

面向工业生物技术的系统生物学

2024-07-09 14:52:44| 来源: 网络整理| 查看: 265

工业生物技术以微生物细胞工厂利用可再生的生物原料来生产能源、材料与化学品等，是继医药生物技术、农业生物技术之后全球生物技术的第3次浪潮，在解决资源、能源与环境问题上起着越来越重要的作用，在建设绿色、低碳与可持续的产业经济体系上具有重大战略意义[1]。工业生物技术的两大核心问题即微生物细胞工厂(即工业菌种)的设计构建与生物发酵过程的优化放大。对微生物细胞工厂及其发酵过程的认识与理解是解决这两大问题的关键，而系统生物学是解析工业菌种及发酵过程从“黑箱”到“白箱”的重要研究方法，是推动工业生物技术发展的重要驱动力。

系统生物学通过基因组、转录组、蛋白质组、代谢组以及代谢流组等组学分析技术，系统解析细胞在RNA、蛋白与代谢物等不同水平上的变化规律与调控机制，进而通过数据驱动的方法与数学模型化来模拟和认识工业细胞工厂的生命过程[2]。近年来，DNA测序与质谱等组学技术的发展将对生物细胞与生命过程的认识推入了系统化与数据化的时代。系统生物学在解决工业生物技术核心问题中起到越来越重要的指导作用，许多成功的应用实例不断在工业菌种的设计改造和发酵过程的优化放大中涌现，具体包括细胞工厂底盘细胞的选择与设计、新代谢途径的设计与构建、基因组规模的改造靶点鉴定、代谢途径优化、耐受性的提升、碳源利用的优化以及工业发酵工艺优化与放大等方面。本文首先简述基因组、转录组、蛋白质组、代谢组与代谢流组等组学技术及相关数据库的最新研究，然后系统综述各组学技术或跨多组学的(Trans-omics)整合策略在工业生物技术中的应用，最后就工业生物技术中系统生物学的未来发展方向进行展望。

1 系统生物学的组学技术

近年来，随着不同物种在不同条件下的多组学海量数据的井喷式涌现，各组学数据库与多组学分析技术成为揭示生命过程分子机制的重要工具(表 1)。本节中将简述基因组、转录组、蛋白质组、代谢组与代谢流组等相关技术及数据库的发展。

表 1 各组学数据库 Table 1 Data repositories associated with omics datasets and metabolic engineering interest Name OMICS Website Description Reference GenBank Genomics www.ncbi.nlm.nih.gov/genbank Genetic sequence database, an annotated collection of all publicly available DNA sequences [5] Genome Genomics https://www.ncbi.nlm.nih.gov/genome Organizes information on genomes including sequences, maps, chromosomes, assemblies, and annotations [5] GOLD Genomics www.genomesonline.org Catalogs genome-scale sequencing projects [6] Microbesonline Genomics http://www.microbesonline.org/ Contains 3 707 genomes, including 1 752 bacteria, 94 archaea, and 119 eukaryotes [7] SGD Genomics www.yeastgenome.org A database for S. cerevisiae specifically [8] FungiDB Genomics fungidb.org/fungidb/ An integrated genomic and functional genomic database for the kingdom Fungi [9] GEO Transcriptomics www.ncbi.nlm.nih.gov/geo A public functional genomics data repository [11] ArrayExpress Transcriptomics www.ebi.ac.uk/arrayexpress Functional genomics data [12] M3D Transcriptomics http://m3d.mssm.edu/ A resource of microbial gene expression data [13] PRIDE Proteomics www.ebi.ac.uk/pride/archive Mass-spectrometry-based proteomics specifically [17] GPM Proteomics www.thegpm.org Tandem mass-spectrometry-based proteomics specifically [18] PeptideAtlas Proteomics www.peptideatlas.org A multi-organism, publicly accessible compendium of peptides identified in a large set of tandem mass spectrometry proteomics experiments [19] Uniprot Proteomics www.uniprot.org Provides proteomes for species with completely sequenced genomes [20] MitoMiner Proteomics http://mitominer.mrc-mbu.cam.ac.uk A mitochondrial proteomics database of mammals, zebrafish and yeasts [21] Plasma Proteome Database Proteomics http://www.plasmaproteomedatabase.org Plasma Proteome Database as a resource for proteomics research [22] METLIN Metabolomics metlin.scripps.edu A repository for mass spectral metabolite data [29] MassBank Metabolomics www.massbank.jp A mass spectral database of experimentally acquired high resolution MS spectra of metabolites [57] HMDB Metabolomics http://www.hmdb.ca/ A freely available electronic database containing detailed information about small molecule metabolites found in the human body [32] Golm Metabolome Database Metabolomics http://gmd.mpimp-golm.mpg.de/ Facilitates the search for and dissemination of reference mass spectra using GC-MS [30] MetaboLights Metabolomics www.ebi.ac.uk/metabolights Contains protocols, publications, raw data, and meta data for a wide variety of metabolomics studies [31] CeCaFDB Fluxomics www.cecafdb.org A collection of 100+ 13C-flux publications, mostly regarding prokaryotes [38] KEGG Metabolic pathway www.kegg.jp One of the most complete and widely used databases containing metabolic pathways (372 reference pathways) from a wide variety of organisms (> 700) [46] WikiPathways Metabolic pathway www.wikipathways.org An open, collaborative platform for capturing and disseminating models of biological pathways for data visualization and analysis [47] MetaCYC Metabolic pathway metacyc.org A metabolic pathway-specific database which describes the enzymes involved in over 400 metabolic pathways across 158 different organisms [48] BioCYC Metabolic pathway biocyc.org A collection of 371 individual species pathway/genome databases [49] LIGAND Metabolic reaction www.genome.ad.jp/dbget/ligand.html A repository for enzyme-catalyzed reactions [50] BRENDA Metabolic reaction www.brenda-enzymes.org A repository for enzyme-catalyzed reactions [51] 表选项 1.1 基因组

基因组(Genome)是生物体的全部遗传信息的总和，是研究认识生命过程的基础。基因组测序技术，尤其是第二代与第三代测序技术的快速发展，大大降低了基因组的测序成本，推动了基因组学的发展。以Illumina公司的Hiseq为代表的第二代测序技术[3]具有高通量、高精确度与高覆盖度等优势，但其测序读长较短。而第三代单分子测序技术[4]则具有10–20 kb的测序读长甚至可以跨越绝大多数的重复序列区域，但其精确度相对较低。第二代测序和第三代测序可互相取长补短，采用两个测序技术可得到更加完整和高质量的基因组数据。

基因组组装与注释是挖掘认识基因组信息的重要手段。基因组的注释关键包括基因组结构注释与功能注释。基因组结构注释预测定位各基因的物理图谱，获得基因起始密码子、内含子和外显子、基因的终止密码子等结构信息，可采用基于机器学习的从头预测或基于同源序列的比对预测。基因功能注释则多采用基于数据库中的已知序列进行同源比对的方式。常用的基因组数据库有GenBank[5]、Genome[5]与GOLD[6]等综合数据库以及物种特异性数据库如包含大肠杆菌Escherichia coli和谷氨酸棒杆菌Corynebacterium glutamicum等细菌基因组的数据库Microbesonline[7]、酿酒酵母Saccharomyces cerevisiae基因组数据库SGD[8]、真菌基因组数据库FungiDB[9]等(表 1)。除基因组的从头预测注释外，比较基因组可通过对比具有不同表型的菌株的基因组，获得与特定表型相关的单核苷酸多态性(Single nucleotide polymorphisms，SNPs)、基因的插入与缺失等。

1.2 转录组

转录组(Transcriptome)指在特定环境条件下表达的所有RNA。转录组学通过对不同条件下特定细胞内的所有RNA的定量检测，来分析各基因的表达水平[10]。转录组定量检测技术主要包括基因表达芯片技术与基于第二代测序的RNA测序技术(RNA-seq)等。基因芯片在RNA的数量、物种灵活性、定量与序列分析等方面具有一定的局限，而RNA-seq技术由于具有高准确度、高分辨率、高灵敏度等优势，由于测序成本不断降低而被广泛应用。

比较转录组学通过对不同条件下基因表达水平的比对分析，来研究不同条件下的响应变化与不同菌株之间的差异。时间序列转录组数据可以动态地再现细胞内基因的表达变化，变化趋势一致的基因可能会有比较一致的功能。时间序列的转录组数据可展示不同生命过程中基因的动态变化，这些变化信息蕴含着丰富的调控关系，有助于我们更加深刻地认识微生物内部基因的动态关系，理解代谢过程。转录组数据库收集了不同物种不同条件下的转录组数据，如GEO[11]、ArrayExpress[12]与M3D[13]等为转录组的整合分析提供了宝贵的数据资源(表 1)。

1.3 蛋白质组

蛋白质组(Proteome)指在特定环境条件下表达的所有蛋白质。蛋白质组学对不同环境条件下表达的所有蛋白质进行定性和定量分析，系统研究蛋白质的加工、修饰以及蛋白质间的相互作用。随着蛋白质组的发展，有许多不同方法用于蛋白质组的研究，如蛋白芯片、二维聚丙烯酰胺凝胶电泳-质谱(Two-dimensional polyacrylamide gel electrophoresis/Mass spectrometry，2D-PAGE/MS)与液质联用(Liquid chromatography-tandem mass spectrometry，LC-MS/MS)等。近年来，质谱相关技术的迅速发展，大大促进了蛋白质的鉴定与定量分析。一系列定量蛋白质组技术发展起来，如细胞培养氨基酸稳定同位素标记(Stable isotope labeling with amino acids in cell culture，SILAC)[14]、同位素亲和标签(Isotope coded affinity tag，ICAT)[15]与同位素标记相对和绝对定量标记(Isobaric tags for relative and absolute quantitation，iTRAQ)[16]等，为全面、系统地定性和定量分析复杂细胞蛋白质组提供了有效的技术手段。

目前，常用蛋白质组数据库主要包括基于质谱的蛋白质组数据库如PRIDE[17]、GPM[18]与PeptideAtlas[19]等，综合蛋白质组数据库Uniprot[20]与特定蛋白质组数据如线粒体蛋白质组MitoMiner[21]与膜蛋白质组Plasma Proteome Database等[22] (表 1)。这些数据库资源也为蛋白质组的鉴定与定量分析提供了有力的支持。

1.4 代谢组与代谢流组

与转录组与蛋白质组相似，代谢组也是在特定生理条件下细胞所有代谢物的集合，尤其是相对分子质量为1 000 Da以下的小分子代谢物。代谢组学主要系统研究代谢物的变化，揭示生命过程中细胞代谢调控变化。由于基因突变或环境扰动可能不会引起转录和翻译的变化，但会导致酶活性和代谢物浓度的变化。因此，与转录组和蛋白质组相比，代谢组更能反映出细胞代谢的动态变化[23]。质谱相关技术如液质联用、气质联用(Gas chromatography-Mass spectrometry，GC-MS/MS)与毛细管电泳质谱(Capillary electrophoresis-Mass spectrometry，CE-MS/MS)以及核磁共振技术(Nuclear magnetic resonance spectroscopy，NMR)的发展，大大推动了代谢组研究。

可靠的胞内代谢物组数据是认识细胞真实代谢状态的直接证据，对于提高菌株代谢改造和工业发酵过程优化具有重要意义。但与RNA与蛋白质相比，许多代谢组的半衰期非常短，代谢组样品制备会直接影响代谢组数据质量。由于不同微生物在代谢物谱上差异，针对不同微生物需要进行代谢组样品制备的优化，尤其是针对复杂的胞内代谢组[24-28]。代谢组的样品制备需对细胞淬灭与代谢物提取等步骤进行优化。常用细胞淬灭方法有冷甲醇淬灭、冷乙醇淬灭与液氮速冻等，如冷甲醇或冷乙醇等对细胞造成损伤时，可考虑采用快速取样与液氮速冻相结合的方法。代谢物提取有热乙醇、热水、冷氯仿-甲醇、冷甲醇、冷乙腈等，由于不同提取剂的提取效率不同，为获得完整的胞内代谢物信息，也往往需要测试不同代谢物提取方法。

代谢组数据分析往往包括峰识别与匹配、归一化处理、小分子代谢物的鉴定与定量分析等。液相质谱数据库Metlin[29]和MassBank、气相质谱数据库Golm Metabolome Database[30]以及综合质谱数据库MetaboLights[31]和HMDB[32]等可用于小分子代谢物的鉴定(表 1)。目前，代谢组分析的挑战主要在于不同微生物的样品方法优化、非靶向代谢组中的结构鉴定、复杂未知代谢物的结构鉴定以及不同代谢物的绝对定量等[33]。

与代谢组相比，代谢流组更侧重胞内代谢流量的分析。目前，多采用13C-标记物来分析不同特定条件下细胞内的碳流分布，通常包括13C-标记物存在下的菌株培养、胞内代谢物的同位素分布检测、13C-标记辅助下的代谢途径与代谢流分析等步骤[34]。代谢流分析(13C-Metabolic flux analysis，MFA)往往需要同位素数据处理与相应分析软件，如OpenFLUX2[35]、13CFLUX2[36]与INCA[37]等。目前，代谢流分析数据库CeCaFDB收集了100多个基于13C-标记的代谢流数据[38] (表 1)。在代谢流分析相关研究方面也已有许多比较优秀的综述，如2009年花强与杨琛[39]系统综述了代谢流比率分析的研究方法及其在代谢改造中的应用。再如Guo等[34]对13C-MFA相关分析方法及其在不同工业菌株的应用进行了详细的综述。

1.5 基因组规模的生物网络模型

各组学数据的不断丰富为从系统的角度全面解析生命过程奠定了基础。但如何解析海量多组学数据仍然是系统生物学面临的挑战。全基因组规模的生物网络是解决这一问题的有效策略。目前，多个重要微生物不同层次的生物网络已经建立，尤其是基因组规模的代谢网络模型、转录调控网络模型与蛋白互作网络等。

目前，许多重要工业微生物，如大肠杆菌[40]、酿酒酵母[41-43]与黑曲霉Aspergilus niger[44-45]的基因组规模的代谢网络模型已建立。在代谢网络模型的构建中，首先可根据代谢途径相关的数据库如KEGG[46]、WikiPathways[47]、MetaCYC[48]、BioCYC[49]、LIGAND[50]与BRENDA[51]等对基因组进行解析，获得“基因-酶-通路-反应”的关系，进而搭建代谢网络框架(表 1)。然后，利用代谢流平衡分析(Flux balance analysis，FBA)方法[52]，结合自动化和人工校正，获得计量学的代谢网络模型。后续，可通过整合如时间序列的多组学数据，进一步建立基于动力学的代谢网络模型[53]。基因组规模的代谢网络动力学模型，可以微分方程等数学方程刻画细胞过程，对细胞遗传因素与环境因素的预测更加可靠，将会成为未来的重要发展趋势。

转录调控网络模型是全局研究基因表达与调控的有效方法。利用时间序列的转录组数据或针对不同条件下的转录组数据进行基因共表达模式的整合分析，是构建转录调控网络模型常用策略。比如，Schape等[54]通过对155组不同条件下的黑曲霉转录组数据基于斯皮尔曼相关性分析，构建了基因组规模的基因共表达网络以及9 500个基因的共表达子网络，为基因组规模的基因功能研究提供有力的数据支撑。

目前大部分工业微生物还没有可靠的蛋白质相互作用网络。Kludas等[55]利用机器学习的算法，以从GOLD数据库中提取的酿酒酵母蛋白互作网络为训练集，对里氏木霉Trichoderma reesei的蛋白-蛋白互作关系进行了预测分析，获得了里氏木霉的蛋白互作网络，其阳性率可达75%[55]。利用机器学习的模拟有希望成为根据已知网络模型获得未知网络模型的重要方法。

1.6 多组学分析

近年来，基于各组学的系统生物技术的快速发展，为我们认识改造微生物成为细胞工厂提供了强有力的指导。全基因组测序与细胞转录、翻译与代谢等各个层次的定量分析是破解其遗传密码、进行基因组育种、基因信息挖掘与基因组规模建模的基础。基于多组学的系统分析，使我们可以从全局上理解细胞的代谢与调控机制，成为系统代谢工程的学习-设计-创建-测试(Learn-Design-Build-Test，LDBT)研究策略中的重要环节(图 1)。

图 1 系统生物学驱动的合成生物学细胞工厂创建优化策略[101] Fig. 1 LDBT (Learn-Design-Build-Test) cycle of synthetic biology to develop industrial cell factory driven by systems biology study[101]. 图选项

各组学数据是认识细胞代谢与生命过程的重要研究策略，但值得注意的是组学研究应是问题驱动的。在研究伊始，就需要提出明确的研究目标与拟解决的问题，然后根据相应问题来选择相应的研究方法。比如，转录组与蛋白质组都是分析胞内基因表达水平的有效策略，但细分来看，转录组的通量更高、成本相对更低，是分析基因转录水平差异的首选。但转录组无法预测可能在翻译或翻译后修饰上存在限制的相关基因，针对这一问题，蛋白质组尤其是修饰蛋白质组有成为更为有效的方法。同时，由于蛋白质组还与蛋白的稳定性相关，因此不同基因的转录组与蛋白质组可能并不是一一对应的。但也可利用两者之间的差异，通过转录组与蛋白质组的整合，可获得在翻译或翻译后修饰等方面的蛋白信息。

基于质谱的蛋白质组与代谢组分析，往往涉及非靶向与靶向的问题。非靶向分析更倾向于利用如主成分分析(Principal component analysis，PCA)等发现新的靶点，从检测与分析上，就需要求全以获得更为完整的胞内蛋白或代谢物信息。靶向分析则更多地用于已知途径中不同蛋白或代谢物的分析。

由于细胞是一个复杂的整体，跨多组学数据的整合分析是全面解析细胞不同层面分子机制的重要研究方法。比如，Zhu等[56]利用基因组、比较转录组与比较蛋白质组等多组学分析，揭示氮源缺乏是导致产油真菌圆红冬孢酵母Rhodosporidium toruloides油脂积累的重要原因，为系统阐释该菌株的全局调控奠定了基础，也为该菌株的理性改造提供新的靶点。

2 系统生物学在工业生物技术中的应用

工业生物技术可利用微生物细胞工厂以可再生的生物原料来生产目标能源、材料与化学品，是石油化学品工业生产的高效替代途径。理论上，微生物细胞工厂具有生产任一代谢网络中的代谢中间物的潜力，但目前绝大部分的天然微生物的生产能力是非常有限的。因此，基于系统生物学的认识与设计，利用合成生物学的手段来最终实现微生物细胞工厂的构建与优化，不断提升产量、转化率与生产强度这三大发酵指标，是目前工业生物技术的重要研究策略[58-60]。系统生物学在微生物细胞工厂的设计改造以及工业发酵优化中具有重要的指导作用，许多成功的应用实例不断涌现。本节将根据具体实例分析系统生物学在工业生物技术中的应用。

2.1 基于系统生物学的细胞工厂设计改造 2.1.1 细胞工厂底盘细胞的选择与设计

重要模式微生物如大肠杆菌与酵母等由于清晰的遗传背景与高效的遗传操作，目前被开发拓展为可用于许多不同产品生产的工业底盘细胞[60]。一些传统工业发酵菌株，如高产氨基酸的谷氨酸棒杆菌、高产有机酸的黑曲霉、高产丁醇的梭菌Clostridium sp.、高产脂类物质的解脂酵母Yarrowia lipolytica以及高产多酮类化合物的放线菌等，由于具有强工业鲁棒性、高生产强度与低发酵成本等优势，也成为非常理想的细胞工厂底盘[2, 61]。另外，一些具有独特生化特性的微生物，如蓝藻Cyanophyta、微藻Microalgae和甲烷菌Methanobacteria等一碳底物利用菌株[62]，如嗜热毁丝霉Myceliophthora thermophila与嗜热侧孢霉Sporotrichum thermophila等嗜热菌[63]，也是底盘细胞的候选菌株。

在底盘细胞的设计中，通过重塑中心代谢途径来提高某一关键中间代谢物的合成流量，然后以这一中间代谢物为基础前体物质，用于后续一系列代谢物的生产。如Jouhten等[64]利用FBA、MiMBl与代谢通量变化分析(Flux variability analysis，FVA) 3种代谢流分析算法，重新设计了酿酒酵母的中心代谢流分布，构建了乙酰CoA的底盘细胞。而乙酰CoA作为参与34个代谢反应的重要中间代谢物，可用于一系列工业价值产品的生产，如可用于生物柴油与生物医药的脂类物质、可用于抗生素与抗癌药物合成的多酮类化合物以及可用于化妆品与食品添加剂的异戊二烯类物质等[64-65] (表 2)。

表 2 系统生物学在工业生物技术中的应用实例 Table 2 Recent applications of system biology in industrial biotechnology Goal Strategy Strain Product Effect Reference Microbial cell factory engineering Chassis selection and design In silico flux analysis Saccharomyces cerevisiae Acetyl-CoA chassis Platform cell for the production of 29 chemicals [64-65] Novel metabolic pathways construction Genomics S. cerevisiae Opioids [66] Genomics S. cerevisiae Breviscapine 108 mg/L scutellarin; 185 mg/L apigenin-7-O-glucuronide [67] Genomics Escherichia coli Vitamin B12 ↑250-fold (yield) [68] Genome-wide metabolic engineering targets identification Genomics+ transcriptomics Aspergillus niger Citric acid ↑5-folds (titer, 109 g/L) [69-70] Proteomics E. coli Sesquiterpene ↑3-folds (titer, > 500 mg/L) [71] Proteomics+PCA E. coli Limonene ↑40% (titer) [72] Proteomics+ metabolomics E. coli Polyphenol pinosylvin ↑2.2-folds (titer) [73] Metabolic flux optimization Transcriptomics+in silico flux modelling E. coli 6-deoxyerythronolide (6dEB) ↑3-folds (titer, 210 mg/L) [74] Metabolomics E. coli 1-butanol ↑22% (titer, 18 g/L) [75] Fluxome Corynebacterium glutamicum Lysine ↑60% (yield, 0.24 mol/mol) [79] Fluxome Basfia succiniciproducens Succinate ↑44% (yield, 2.5 mol/mol) [77] Stress tolerance improvement Genomics + transcriptomics E. coli Isopropanol Improve isopropanol tolerance [84] Transcriptomics C. glutamicum Succinate ↑38% (titer, 152 g/L) [86] Proteomics+ metabolomics E. coli 3-hydroxypropionate (3HP) ↑2-folds (titer, 39 g/L) [87] Carbon utilization Transcriptomics Penicillium chrysogenum Arabinose ↑450-folds [89] Metabolome C. glutamicum Arabinose [90] Bioprocess optimization Gaussian-model E. coli Flavan-3-ols ↑65% (titer, 40.7 mg/L) [91] Artificial neural network models Debaryomyces nepalensis Xylitol [92] Fluxome Ashbya gossypii Riboflavin ↑45% (titer, 18 g/L) [93] 表选项 2.1.2 新代谢途径的设计与构建

由于涉及关键酶的筛选与选择，目标特定化学品的代谢途径设计是一个较为复杂的问题。传统途径设计多基于文献分析或基于KEGG、MetaCyc与BRENDA等代谢途径数据库的已知代谢途径分析，设计难度大，设计能力有限。目前，基于有机化学和生物化学的原理，通过计算机辅助设计，以基因组技术挖掘催化特定反应的酶的编码基因，实现快速非自然途径的创建[33]。结合高效的DNA组装技术与基因组编辑技术，可在底盘细胞异源构建涉及多步反应的复杂化合物的合成，如天然代谢产物与微生物的异源合成。

Galanie等[66]借助基因组新酶挖掘，设计了阿片药物(Opioid)的完整合成途径，通过在酿酒酵母底盘细胞中，整合来源于植物、动物、酵母与细菌的21个二甲基吗啡(Thebaine)合成相关与23个氢可酮(Hydrocodone)合成相关的关键酶，成功获得阿片药物细胞工厂，实现二甲基吗啡与氢可酮的异源合成。Liu等[67]通过对灯盏花基因组的系统挖掘，成功筛选鉴定到灯盏花素合成途径中的P450酶EbF6H和糖基转移酶EbF7GAT这两个关键酶，通过在酿酒酵母底盘细胞中异源构建灯盏花素合成途径，成功获得灯盏花素合成的细胞工厂，灯盏花素含量达到百毫克级。该研究对将传统农业种植生产方式转变为规模化工业发酵生产路线，具有非常好的借鉴意义。

另外，Fang等[68]通过系统解析维生素B12好氧合成途径中钴螯合与腺苷钴啉醇酰胺磷酸的合成机理，将来源于5种不同细菌中的28个基因在大肠杆菌底盘细胞中成功组装与基因表达调控，成功在大肠杆菌中实现了维生素B12的从头合成，转化率达307 mg/g DCW，发酵周期大大缩短，仅为目前工业水平的1/10，为复杂化学品的从头合成与传统发酵菌株升级换代提供了很好的示范。

2.1.3 基因组规模的改造靶点鉴定

代谢途径中限速节点的发现是细胞工厂的设计优化的关键。传统代谢工程中，往往基于先验知识的试错或大规模的文库筛选来发现代谢瓶颈。但这种策略在菌株改造靶点的发现也往往会进入一个瓶颈。基于各组学及其整合分析则成为从全基因组规模上发现代谢瓶颈的有效策略。

比较组学是发现代谢瓶颈的有效策略。殷娴等[69]利用比较基因组与比较转录组分析了柠檬酸高产黑曲霉菌株与低产的退化菌株之间的差异，发现柠檬酸转运蛋白的候选基因可能是柠檬酸高产的重要因素。Steiger等[70]通过基因组挖掘的方式也发现了相同的柠檬酸转运蛋白编码基因，利用Tet-on诱导表达系统来过表达该转运蛋白后，可使柠檬酸的产量较出发菌株提高了5倍。Redding-Johanson等[71]利用选择反应监测-质谱(Selected-reaction monitoring-Mass spectrometry，SRM-MS)对倍半萜烯(Amorpha-4, 11-diene)的大肠杆菌工程菌株进行定量蛋白质组分析，发现来源于酿酒酵母的甲羟戊酸激酶(Mevalonate kinase，MK)与磷酸甲羟戊酸激酶(Phospho- mevalonate kinase，PMK)可能是倍半萜烯代谢途径中的限速节点。通过对MK与PMK的密码子优化与强启动子替换，倍半萜烯的产量提高3倍，达到500 mg/L以上。

另外，PCA分析也是发现代谢节点的有效方法。Alonso-Gutierrez等[72]对27个具有不同柠檬烯产量的大肠杆菌中的9个甲羟戊酸合成关键酶的靶向定量蛋白质组数据进行PCA分析，鉴定出高产菌株中的表达强化的关键酶，进一步强化关键酶的表达后，柠檬烯的产量提高40%。

多组学整合分析可用于发现翻译后修饰等调控所导致的代谢瓶颈。多酚银松素具有抗细菌与抗真菌的活性，丙二酰CoA是其重要的前体，需要外源添加浅蓝菌素(Cerulenin)来获得，但其高水平反而抑制生产。为解析其抑制机制，Xu等[73]进行蛋白质组与代谢组分析，发现胞内高水平的丙二酰CoA与胞内蛋白的丙二酰化相关联。进一步分析发现4-香豆酸CoA连接酶(4-coumarate- CoA ligase，4CL)与芪合成酶(Stilbene synthase，STS)丙二酰化后活性丧失，这可能是浅蓝菌素抑制银松素合成的关键。将STS的丙二酰化位点Lys113与Lys161突变为精氨酸，避免其丙二酰化后，突变菌株可耐受更高水平的丙二酰CoA，银松素的产量提高了2.2倍。由此可见，在菌株设计改造中，如翻译后修饰等不同调控水平上的限制因素分析是非常重要的。

2.1.4 代谢途径优化

除在限速代谢节点的预测外，各组学及基因组规模的代谢网络模型等在整体代谢途径的优化上也发挥着越来越大的作用，许多成功的例子不断被报道。

Meng等[74]通过转录组与代谢流模型的整合分析，来预测在6-脱氧赤酮酸内酯B (6-deoxyerythronolide B，6dEB)合成中不同代谢模块的作用。研究通过弱化磷酸戊糖途径与核甘酸代谢中的所有25个基因，显著提高6dEB的生产，与出发菌株相比产量提高了3倍，达到210 mg/L。值得注意的是，不同组学分析的预测结果可能会存在差异，比如在比较转录组中发现上调的基因，在代谢流模型可能预测为下调。这提示我们转录组数据反映的是胞内基因的表达水平，会影响胞内代谢状态，但并不能直接代表代谢水平。

代谢组分析可能更有助于设计优化胞内的代谢流分布。Ohtake等[75]利用野生大肠杆菌菌株与敲除菌株的比较代谢组分析，发现当敲除pta途径后会引起CoA代谢失衡，而引起其他副产物丙酮酸与丁酸甲酯的生成，进一步分析发现由乙醇脱氢酶AdhE2所催化的丁酰CoA到正丁醛的合成流量降低可能是限速步骤。通过乙醇脱氢酶AdhE2表达的精细调控，提高胞内CoA水平后，显著降低副产物的生成，最终实现大肠杆菌中的正丁醇产量提升22%，达到18.3 g/L。

13C-同位素标记的代谢流分析可利用质谱与核磁检测计算各胞内代谢物的13C-同位素分布情况，进而定量计算胞内各酶催化下的代谢通量，被认为是最能反映胞内真实代谢状态的组学分析工具，也不断应用于许多不同的工业生产菌株的认识与改造中。如Lu等[76]利用同位素标记的代谢组与13C代谢流分析相结合，比较分析了黑曲霉糖化酶高产菌株DS03043和野生型CBS 513.88的代谢差异。研究发现在高产菌株中，ATP/AMP的比率更高，高浓度ATP抑制了葡萄糖-6-磷酸异构酶的活性，使碳流更多地流向氧化磷酸化途径，导致TCA循环的碳流减少，从而降低了如柠檬酸与草酸等副产物的积累。再如Lange等[77]利用基于GC-MS的13C-代谢流分析了产琥珀酸巴斯夫菌Basfia succiniciproducens胞内从蔗糖到琥珀酸的代谢通量。通过对460种代谢物的同位素分布检测，准确定量了完整的中心代谢通量，发现一个新的果糖激酶RbsK参与到蔗糖的分解产物果糖的磷酸化活化。通过对PTS葡萄糖转运系统中FruA的弱化与果糖激酶RbsK的强化，可有效降低PTS系统造成的碳流损失，从而大大提高了琥珀酸的转化率，转化率达到2.5 mol/mol，接近3 mol/mol的理论转化率。另外，Yang等[78]发现甲基磷酸赤藓糖醇途径(Methylerythritol phosphate pathway，MEP)与甲羟戊酸途径(Mevalonate pathway，MVA)两个途径的同时过表达，相对单独过表达时，可分别使大肠杆菌的异戊二烯产率提高了20倍和3倍。进一步利用13C-代谢流分析，发现两途径协同过表达时，可使MEP途径与MVA途径的流量分别增强4.8倍和1.5倍，表明还原力的平衡与ATP供给在两途径协同平衡中起重要作用。两途径的协同作用可使大肠杆菌的异戊二烯的产量达到24 g/L，葡萄糖转化率达到0.267 g/g。

另一个利用代谢流分析的成功例子是谷氨酸棒杆菌以甘露醇为原料生产赖氨酸[79]。甘露醇是新一代非粮原料海草中的主要成分。研究发现，当以甘露醇为原料时，碳流多流向糖酵解途径，磷酸戊糖途径代谢流量较低，使NADPH的供给严重不足。研究首次通过在胞内引入异源的果糖激酶来重新分配碳流，从而增加磷酸戊糖途径的代谢流量，但发现提升效果较低。为另寻他路，通过表达参与糖酵解途径中的NADP-依赖的甘油醛脱氢酶来提高NADPH还原力的供给，成功解决了还原力供给不足的问题。

2.1.5 细胞工厂耐受性的提升

细胞工厂对发酵终产物或毒性中间代谢物的耐受性是制约工业发酵性能提升的重要因素。如果压力响应机制或毒性机制是清晰的，则可通过相应的策略来缓解压力对细胞的胁迫，提升菌株的耐受性[80]。比如，芳香族或烷烃等疏水化合物可直接插入至细胞膜中，进而影响细胞膜的完整性与流动性引起细胞损伤。针对这一问题可利用细胞膜组分修饰来缓解，如过表达细胞膜脂类顺反异构酶与去饱和酶等，增加细胞膜中环丙基脂肪酸或改变脂肪酸链长度等。有的压力胁迫会激活胞内的未折叠蛋白应激反应(Unfolded protein response，UPR)而导致胞内蛋白质的错误折叠，因此过表达分子伴侣也是较为常用的方式。比如在大肠杆菌或丙酮丁醇梭菌中过表达分子伴侣GroESL可显著提高正丁醇等的耐受性[81-82]。再如，Zhu等[83]发现如5-氨基乙酰丙酸(5-aminolevulinic acid，5-ALA)等氨基酮类物质的积累也会产生活性氧等而损失细胞，过表达过氧化氢酶KatG/KatE或超氧化物歧化酶SodA/SodB/SodC等可有效缓解氧化应激，提高菌株的耐受性并增强5-ALA的产量。一些毒性化合物的外排蛋白如RND外排泵或压力调控转录因子MetR与SoxS的改造也有助于提高菌株的耐受性。

当耐受性机制尚不清楚时，则可采用定向适应性进化的策略，利用连续传代富集获得耐受性显著提高的菌株。然后，利用比较组学的手段来发现引起耐受性提高的分子机制，再通过对底盘菌株的理性设计改造，获得耐受性不断提高的菌株[60]。比如异丙醇对细胞有一定的毒性，会抑制细胞生长并降低产量。Horinouchi等[84]通过在异丙醇压力条件对大肠杆菌进行适应性进化，获得了耐受性提升的菌株。借助比较基因组，鉴定出relA、marC、proQ、yfgO与rraA基因上的突变可有助于耐受性的提高，进一步利用比较转录组分析，发现氨基酸合成代谢、铁离子稳态维持以及能量代谢等与耐受性有关。Wang等[85]利用基因组复制元件DnaQ突变体辅助的连续进化技术(Genome replication engineering assisted continuous evolution，GREACE)将大肠杆菌在赖氨酸终点发酵液中了进行了定向进化，获得了赖氨酸产量显著提升的菌株RS3，其赖氨酸产量可达到155 g/L，比出发菌株MU-1提升14.8%。进一步通过比较基因组与比较代谢组的分析，发现菌株RS3中SpeB、AtpB与SecY等基因的点突变，可能有助于提高细胞完整性与增强赖氨酸合成的碳流。

靶标产品的积累会对细胞产生一定的压力，从而限制菌株发酵性能的不断提升。如谷氨酸棒杆菌发酵生产琥珀酸时，琥珀酸的不断积累会反馈抑制葡萄糖的吸收、细胞适应性以及琥珀酸生产。Chung等[86]利用基于DNA芯片的转录组分析发现随着琥珀酸的积累，转运途径与转录调控的基因表达发生显著变化。通过过表达一些转录下调的基因时可提高葡萄糖利用速率，但过表达中心代谢的关键酶对生产并无促进。然而，过表达转录因子NCgl0275可提高细胞适应性，并使琥珀酸生产大幅提高38%，产量达152 g/L。另外，蛋白质组与代谢组的整合也用于通过分析大肠杆菌的静止细胞(Q-cell，quiescent cell)，来揭示Q-cell独特的代谢调控与耐受性[87]。Q-cell由质子载体吲哚诱导而生，可使细胞不再生长，但维持较高的代谢活性。通过比对细胞正常生长下与处于Q-cell的蛋白质组，发现加入吲哚后，压力响应蛋白的蛋白水平显著提高。这些压力蛋白将维持Q-cell耐受胞内的代谢失衡。利用这种代谢失衡引起的乙酰CoA与磷酸烯醇式丙酮酸的积累，可驱动羟基丙酸(3-hydroxypropionate，3HP)的合成，使3HP的产量提高2倍，达到39 g/L。

2.1.6 细胞工厂碳源利用的优化

目前，葡萄糖与蔗糖等是工业发酵中的主要碳源。但随着粮食危机的风险，许多替代性的非粮碳源如秸秆纤维素以及甲醇与甲酸等一碳化学品的利用也成为研究热点。与菌株耐受性提升的策略相似，替代性碳源利用菌株也可通过适应性进化的方式来获得，然后再借助多组学技术来分析在碳源利用中的关键酶。比如Tuyishime等[88]利用适应性进化成功获得甲醇利用率显著提升的菌株，进一步利用比较基因组的方法发现胞内NAD+/NADH、甲醇的吸收与耐受等是影响甲醇利用的关键因素。在碳源利用中，底物的转运是重要的影响因素。Bracher等[89]采用比较转录组分析了产黄青霉在葡萄糖、阿拉伯糖与乙醇3种不同碳源条件下的基因表达差异，预测出5个潜在的阿拉伯糖转运蛋白，通过验证发现，PcAraT可回补酵母中GAL2的缺失，并可进一步提高阿拉伯糖的吸收与利用。由于该转运蛋白的高亲和力与专一性、在复杂碳源中仍保持较高的活性等特点，有望在生物炼制中具有较好的应用。

代谢组分析也在碳源利用的优化中发挥重要作用。Kawaguchi等[90]利用胞内代谢组分析了谷氨酸棒杆菌对葡萄糖与阿拉伯糖的代谢利用。与许多微生物一样，谷氨酸棒杆菌也存在葡萄糖抑制效应，会优先利用葡萄糖，而抑制阿拉伯糖的利用。代谢组分析发现磷酸烯醇式丙酮酸与丙酮酸的开关是优化阿拉伯糖利用的关键。过表达丙酮酸激酶后，谷氨酸棒杆菌可同时利用葡萄糖与阿拉伯糖，尤其是当敲除阿拉伯糖抑制转录因子AraR时，可提高阿拉伯糖的利用。这一研究使谷氨酸棒杆菌可以在PTS系统存在下同时利用已糖与戊糖。

2.2 基于系统生物学的工业发酵优化放大 2.2.1 工业发酵工艺优化

多组学及基因组规模的代谢网络模型除在菌株的设计改造中发挥着越来越重要的作用外，在工业发酵优化中也逐渐得到应用。

发酵条件与工艺如温度、pH、溶氧与底物补料等都是目标产品发酵性能的重要影响因素，针对特定的工业菌株，往往需要优化其发酵工艺以达到最优的发酵性能。由于发酵过程的复杂性，许多统计方法与数学模型不断用于发酵优化。Jones等[91]利用数据驱动的高斯模型(Empirically-derived scaled-Gaussian model)对大肠杆菌共培养下的黄酮发酵过程进行模拟与优化。首先利用最小二乘回归(Least squares regression)对21个参数进行拟合，然后利用该模型优化如菌株间的适配度、碳源浓度、温度、诱导时间以及接种比例等发酵参数，以获得最优的黄酮类物质黄烷(Flavan-3-ols)的发酵条件。利用该模型优化的条件，可使黄烷的产量提高65%，达到40.7 mg/L，是单菌发酵的970倍。另外，神经元网络模型(Artificial neural network models，ANN)也是发酵过程动态仿真与优化的重要方法。Pappu等[92]利用ANN模型以339个实验数据为训练集，来系统评估了发酵pH、温度与溶氧等条件对卡森德巴利酵母Debaryomyces nepalensi木糖醇生产的影响。

代谢流分析可反映胞内真实代谢状态，除在代谢改造中，在发酵工艺优化中也被不断应用。Schwechheimer等[93]利用GC/MS、LC/MS与1D-/2D-NMR等多种质谱与核磁的方法系统检测了棉阿舒囊霉Ashbya gossypii在生长与维生素B2等核黄素生产等不同阶段的胞内代谢物的13C分布，细致刻画了核黄素代谢流分析。研究发现，甲酸的跨膜流量变化可能是核黄素合成初期的代谢瓶颈。通过分段补加少量甲酸与丝氨酸的补料方式则可解决一碳原料瞬时供给不足的问题，最终通过增加胞内甘氨酸、丝氨酸与甲酸可使核黄素的产量提高45%。

2.2.2 工业发酵工艺放大

在工业发酵过程，发酵过程的逐级放大也是非常重要的环节。如何有效从实验室规模放大到工业实际生产规模，还是较大的挑战。工业发酵的规模往往较大，充分的搅拌是发酵的关键。不充分的搅拌可能会导致传质传氧传热的不均一，使微生物细胞所处的微环境不断变化，如底物、毒性副产物、溶氧、温度、pH及CO2等，最终导致生物量、转化率与生产速率的不均一，从而形成复杂的细胞响应与代谢变化。

针对这一问题，发酵过程的多组学整合分析以及整合流体力学与细胞代谢动力学的分析可能成为有效的解决方法[94]。通过对同一细胞工厂在不同发酵规模上的比较组学分析，可揭示出在逐级放大过程中的宏观发酵表型与微观细胞代谢的变化，有助于解决发酵放大中的瓶颈问题。另外，针对同一发酵过程中的各组学数据的整合分析及整合模型建立也有助于加深在发酵过程中细胞内各不同分子水平上的动态变化。同时，13C-代谢流分析也是检测不同发酵规模中细胞代谢变化的有效手段。de Jonge等[95]利用间歇性葡萄糖补料工艺与13C-代谢流相结合的方法，分析了产黄青霉的青霉素发酵过程中的碳源充足与饥饿条件下的变化，发现不同条件下有的胞内代谢物的浓度出现100倍的变化。这表明工业发酵放大过程，搅拌所带来的底物供给非均一化，会引起局部微环境中细胞代谢的剧烈变化，这可能是导致放大效果难以成线性的重要原因。流体动力学模型(Computational fluid dynamics，CFD)也是预测不同发酵规模下的发酵条件变化的有力工具[2]，可通过对发酵罐内的传热与传质等不同参数的动态模拟来发现在发酵工艺控制与放大中的限速步骤。

3 总结与展望

随着以DNA测序技术与质谱技术为代表的组学技术与基因组规模生物网络的快速发展，系统生物学在工业生物技术的菌株改造与发酵过程优化中起着越来越重要的作用。结合许多工业菌株中高效基因组编辑工具[96-99]、基因精细调控技术[100]以及适应性进化，系统生物学的发展也将不断加速细胞工厂的改造与发酵优化(图 1)[101]。

在细胞工厂的设计与优化中，各组学及多组学的整合分析与基因组规模的生物网络模型将是未来的重要研究方向。利用整合多种不同条件的组学数据的生物网络，可不断推进我们对微生物在基因密码、转录调控、翻译调控、翻译后修饰与代谢调控等各个不同层次上的认识，使基于数据模拟与仿真的细胞工厂设计成为现实，尤其是在复杂天然产物的人工合成上具有独特的优势[102]。此外，针对不同物种的基因组信息挖掘与新酶从头设计改造也是细胞工厂的设计与优化的重要方向。

在工业发酵过程优化中，利用系统生物学的研究策略正在不断加深工业发酵过程中工业菌种的细胞代谢动态变化。各组学数据与一系列宏观发酵表型数据以及发酵罐的流体动力学数据[2]的整合分析，也是未来从微观到宏观、从分子水平到发酵水平系统认识工业发酵过程，并实现高效放大优化的有效策略。

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

面向工业生物技术的系统生物学

面向工业生物技术的系统生物学

今日新闻

点击排行

推荐新闻

图片新闻

专题文章