文献分享:《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》 您所在的位置:网站首页 实验室自建检测方法的管理要求和技术规范包括 文献分享:《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》

文献分享:《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》

2024-07-16 23:26| 来源: 网络整理| 查看: 265

目录

摘要

 一、常用的生物信息学名词

(一)序列及读长

(二)原始数据

(三)可用数据

(四)物种相对丰度和绝对丰度

(五)基因/基因组覆盖度和平均测序深度

(六)碱基质量值(quality,Q)20及Q30

(七)序列比对

(八)每百万序列数(reads per million,RPM)及每千万序列数(reads per ten million,RPTM)

二、mNGS生物信息分析的基本技术方案

(一)公共数据库介绍

(二)比对数据库构建

(三)mNGS生物信息学分析程序

三、生物信息学分析平台基本要求

(一)计算机与服务器

(二)软件

(三)生物信息分析人员

四、小结

摘要

        宏基因组测序(mNGS)在新发突发传染病以及常规检验阴性的感染性疾病诊断中发挥了重要作用。近期,国内相继发表了多个共识阐述了临床应用及实验室规范,但生物信息分析程序及方法也是mNGS重要环节,而目前学界尚未有一致的认识。为提高临床对mNGS结果的理解,本共识根据国内外的发展现状,结合国内测序实验室常规做法,阐述生物信息学分析的规范化管理内容。

        宏基因组测序(metagenomics next-generation sequencing,mNGS)的复杂性远高于目前常用的核酸检测方法,临床上对该技术的理解、结果解释以及生物信息学的应用等相关问题也更为突出。生物信息学是生物学、计算机科学及统计学相结合的一门交叉学科,用于生物数据获取、存储和分析。mNGS除了产生可用于比对的微生物短片段序列外,还存在大量人源、环境、试剂等背景核酸序列,必须依靠生物信息学手段对其进行筛选、过滤、比对,最终给出微生物物种注释。本共识从数据库构建、下机数据比对、结果注释、平台及人员素质等方面提出了规范化要求,其目的是促进mNGS在临床的良性发展。

 一、常用的生物信息学名词 (一)序列及读长

        高通量测序前需进行文库构建,包括样本前处理、核酸提取、打断片段(超声或酶切)、连接接头及文库扩增等步骤(RNA样品需经反转录后构建文库),所得文库在高通量测序设备上进行测序,得到的碱基序列称为序列。序列的读长是影响分析准确度的重要因素,最大读长取决于所选的测序平台。通常在检测报告中显示的序列数为该物种属或种特异序列条数。

(二)原始数据

        一次测序产生的没有经过任何过滤的全部测序结果称为原始数据。高通量测序下机的原始数据经信号转换后得到含常规碱基(A、T、C、G等)及对应碱基测序质量信息的数据,通常包括接头序列、标签序列、测序数据,以fastq格式存储。

(三)可用数据

        可用数据是原始数据经过处理得到的直接用来分析的数据。原始序列数据经质量过滤,去除接头序列、标签序列后,得到的可用于比对的序列称为可用数据,包含人源及微生物序列。

(四)物种相对丰度和绝对丰度

        相对丰度是指注释到该物种的序列数占样本中所有微生物总序列数的百分比。绝对丰度是指注释到该物种的序列数占总数据量的百分比。

(五)基因/基因组覆盖度和平均测序深度

        基因/基因组覆盖度是指测序获得的序列与某物种的参考基因/基因组进行比对,序列覆盖的区域占基因/基因组总区域的比例。将能与基因/基因组比对上的序列碱基数累加并除以基因/基因组被覆盖区域的总长,即为平均测序深度。

(六)碱基质量值(quality,Q)20及Q30

        在高通量测序中,每测一个碱基都会给出相应的质量值,体现测序过程中碱基识别的可信度和错误率,通常以ASCII码表示。质量值的计算方式为 Q =-10lgP(P为碱基识别中的错误概率)。如果该碱基质量值为Q20,则表示碱基识别错误的概率为1%,以此类推,若碱基质量值为Q30,则表示碱基识别错误的概率为0.1%,碱基Q值越大其识别错误的可能性越小,可信度就越高。用于mNGS分析的序列其Q30碱基比例一般不低于80%。

(七)序列比对

        将两条或者两条以上的DNA序列进行匹配,确定最优相似性的过程称为比对。一般分配对序列比对和多序列比对,是mNGS分析和物种鉴定的基础。由于RNA测序在构建文库前进行了反转录,在序列比对时胸腺嘧啶(T)即代表尿嘧啶(U)。        

(八)每百万序列数(reads per million,RPM)及每千万序列数(reads per ten million,RPTM)

        前者指每百万测得序列中比对到目标物种基因组的序列条数,后者指每千万条序列中比对到目标物种基因组的序列条数。

二、mNGS生物信息分析的基本技术方案

        国内目前尚无经国家药品监督管理局批准的用于mNGS生物信息学分析的标准数据库。数据库主要分两类,一类为检测系统配套,相对稳定,实时更新。另一类为自建,国内大多数测序公司为此类,实验室需从公开数据库中挑选、整理、分类,通过程序软件将收集到的基因组序列整理成本实验室微生物及人源序列比对数据库。

(一)公共数据库介绍

        1.微生物参考基因组数据库:包括临床级微生物数据库、全球微生物数据中心、基因组分类学数据库、综合微生物基因组数据库和特定物种基因组数据库。临床级微生物数据库(Food and Drug Administration-database for Regulatory-Grade microbial Sequences,FDA-ARGOS,https://www.fda.gov/medical- devices/science-and-research-medical-devices/database- reference-grade-microbial-sequen ces-fda-argos)由FDA与NCBI合作构建,主要收集高致病性、罕见、新发及意义重大的病原微生物基因组,可用于临床诊断。其中细菌占88.3%,病毒占11.1%,真核生物占0.6%。其中81.9%菌株为临床来源,18.1%为与临床菌株近缘的环境来源物种,预期完成2 000种高质量全基因序列。截至2019年,已收录487种全基因组序列,包括A类(生物恐怖战剂和甲类传染病)、B类(以乙类传染病为主)、C类(尼帕病毒等)、临床常见病原菌及病毒,并收录了2株2019-nCoV全基因组序列。全球微生物数据中心(World Data Center for Microorganisms,WDCM)目前已收录11 264种与人类相关的微生物种全基因组,数据来自国际微生物系统发育与进化杂志(International Journal of Systematic and Evolutionary Microbiological,IJSEM)上发表的全基因组及种特征基因序列。数据质量高、信息全面、权威性强。基因组分类学数据库(Genome Taxonomy Database,GTDB,https://gtdb.ecogenomic.org)截至2020年7月共收录194 600个细菌和古细菌基因组,不同于NCBI Taxonomy 数据库,GTDB通过基因组的平均核苷酸相似度(average nucleotide identity,ANI)构建基因组分类学,提供了从界(domain)到种(species)的标准化分类,但需注意部分基因组数据源于宏基因组和单细胞组装的未培养微生物的基因组草图,其准确性有待进一步验证。综合微生物基因组数据库(Integrated Microbial Genome,IMG,https://img.jgi.doe.gov/cgi-bin/m/main.cgi/m/main.cgi)由美国能源部的联合基因组研究中心(Joint Genome Institute,JGI)于2005年创立,是集合性微生物基因组数据库和比较分析系统,数据量庞大,除自身测序外,汇总了全球微生物基因组数据,如细菌基因组信息就有13 753株。特定物种基因组数据库寄生虫数据库(WormBase ParaSite,https://parasite.wormbase.org/index.html)涵盖161种197个基因组序列。病毒数据库(ViralZone,https://viralzone.expasy.org)提供128个科567个属的数据。病毒参考数据库(reference viral database,RVBD,https://rvdb.dbi.udel.edu)、流感研究数据库(Influenza Research Database,IRD,https://www.fludb.org/brc/home.spg?decorator=influenza.)和全球流感共享数据(Global Initiative on Sharing All Influenza Data,GISAID,https://www.gisaid.org)还包含了新型冠状病毒。

2.人源参考基因组数据库:包括Human GRCh37/hg19和Human GRCh38/hg38基因组数据库和其他人源比对基因库。  Human GRCh37/hg19和Human GRCh38/hg38基因组数据库(http://genome.ucsc.edu/)是目前常用的人类基因数据库,分别于2009年2月和2013年12月公布。可补充中国人标准基因组序列提高比对效率,如“炎黄一号”(CNPhis0000542 https://db.cngb.org/search/project/CNPhis0000542)。其他人源比对基因库:线粒体数据库(MITOMAP,https://www.mitomap.org/MITOMAP)和基于变异性研究的线粒体基因组资源库(HmtD,https://www.hmtdb.uniba.it)、rRNA基因序列综合数据库(SILVA SSU 138.1,https://www.arb-silva.de)及转录组数据库(Refseq Transcripts,NCBI,https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml)。

3.物种综合数据库:包括国际核酸序列共享联盟数据库(International Nucleotide Sequence Database Collaboration,INSDC)和中国国家生物信息中心(China National Center for Bioinformation,CNCB,https://bigd.big.ac.cn)。INSDC创建于2005年,整合了美国生物技术信息中心(National Center for Biotechnology Information,NCBI)的 GenBank和Refseq(https://www.ncbi.nlm.nih.gov/genbank)、欧洲分子生物学实验室核酸序列档案库(European Molecular Biology Laboratory-European Bioinformatics Institute,EMBL-EBI(https://www.ebi.ac.uk)中的European Nucleotide Archive,ENA)以及日本遗传研究所DNA序列库(DNA Data Bank of Japan,DDBJ,http://www.ddbj.nig.ac.jp)。GenBank和RefSeq数据库应用广泛、数据庞大、物种全面,前者可能存在冗余和错误数据,后者信息较为完整准确,物种种类仍在不断补充中。CNCB、国家基因组数据中心(National Genomics Data Center,NGDC,https://bigd.big.ac.cn/?lang=zh)、国家微生物数据科学中心(National Microbiology Data Center,NMDC,https://nmdc.cn)以及中国国家基因库(China National Gene Bank,CNGB,https://www.cngb.org)为国内权威生物物种综合数据库。

(二)比对数据库构建

        比对数据库构建分为物种基因组序列收集和比对库构建两步。物种基因组序列收集一般为人工收集,实验室可使用基于Kmer算法的Kraken软件,该软件具有基因组序列下载收集功能。而比对数据库的构建,则取决于所选用的比对工具,如SNAP、BWA、Bowtie等,每种工具都带有建库命令,具体操作参照软件说明即可。用Kcomplexity等软件去除低复杂度及相似序列,选择特异序列存储于高性能服务器中。还可选cd-hit等软件去除冗余序列优化数据库。mNGS实验室应具备如下数据库。

        1.微生物鉴定数据库:实验室应广泛收集FDA-ARGOS,Genbank,RefSeq和WFCC等公共数据库中的参考基因组,以微生物物种分类注释为目的,剔除冗余、错误及不完整数据,选择高质量、组装完整的序列进行匹配训练。同时挖掘公开发表的物种信息,吸纳新发现病原微生物基因组信息充实数据库。实验室应按照样本类型构建病原谱,每一微生物应含有足够代表种及属水平的序列特征,与近缘物种相似区域应予屏蔽处理或添加种特异序列。目前公共数据库中,寄生虫和病毒数据库尚不完善,易造成寄生虫假阳性和病毒漏检。

        2.特殊微生物数据库:可增加区域流行的病原体,如针对登革热病毒、鼠疫耶尔森菌、2019-nCoV等可建立地域特征亚型、血清型及突变株数据库。可吸纳CARD、Resfinder、Virfinder以及毒力因子数据库(Virulence Factor Database,VFDB)等数据,提高致病性及耐药性分析,但上述耐药和毒力数据库目前还不是很完善,结果准确性和临床诊断符合率需进一步验证。

        3.人源数据库:实验室应根据最新版国际人类参考基因组,构建全面特异的人源基因序列数据库。

        4.背景数据库:mNGS流程中存在试剂工程背景菌序列、环境微生物及实验室残留微生物,可造成测序污染,导致假阳性结果产生,因此,实验室需要构建背景数据库用于过滤污染序列。

        5数据库的存储:数据库的存储、维护、修改、升级等工作应做好权限设定及管理,保证数据库的安全性、有效性和准确性。数据库应以加密的形式保存在服务器中,且不能独立访问,数据需单独存盘并备份。

        建议1 实验室应充分了解公开数据库储量及质量,采用专用软件构建满足临床检测的比对数据库,其至少应包括微生物、人源及背景序列数据等。实验室应保证数据库稳定运行,及时补充新发病原体,提高数据库覆盖度,以加密形式存储于服务器中并备份,仅由授权的生物信息分析人员调用数据。

(三)mNGS生物信息学分析程序

        1.生物信息分析基本程序:下机数据经转换后以fastq文件形式存储于硬盘,并仅对指定的生物信息人员开放访问权限。原始测序数据经低质量序列过滤后,以宿主及其他背景数据库为参考基因组运行比对分析命令(SNAP、BWA、Bowtie、Kraken)以去除人源及人工载体核酸序列,将非人源高质量序列再与微生物数据库比对,得到物种注释结果,生成检测报告。下图给出了生物信息分析的基本流程。

  

图片转自【指南与共识】宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识

        2.生物信息分析流程的关键环节:包括标签识别、序列拆分、接头及低质量序列过滤、数据量、测序深度及灵敏度、人源序列去除和微生物序列注释。

        标签识别和序列拆分:高通量测序文库常批量混合上机(多份样本混合后加入一张芯片),在测序后需通过识别序列上的标签(称为barcode,一般6~10 bp,属人工合成的已知序列)区分不同样本。由于存在标签合成错误、样本间标签污染、测序时标签转换/跳跃(inde switching/index hopping)等问题,某些序列被错误归属导致假阳性,因此,建议混合测序时使用双标签标记,降低同批次样本间的交叉污染,拆分数据的标签碱基容错数设置为0。

        接头及低质量序列过滤:下机数据经拆分后即得到每个样本的测序数据,需要进行数据质量过滤,包括过滤测序接头、低质量序列、低复杂度序列、重复序列等,将获得的高质量读长序列作为微生物鉴定的输入数据。所谓低质量序列指未达到以下指标:Q30碱基数量占比>80%、接头污染比例不超过1%、有效序列长度不小于50 bp、数据的有效比对率应大于70%的基本特征。过滤软件有SOAPnuke、Trimmomatic、fastp及Adapter Removal等。

        数据量、测序深度及灵敏度:组织比体液存在更多人源核酸,相应微生物占比也较少,实验室可通过增加测序深度提高微生物数据量,但随着测序深度增加,测序的成本及数据存储空间需求也相应增加。目前,国际上尚无全面的测序深度适宜性研究。实验室可参考已发表的文献,按自身技术特点积累经验,根据标本类型确定测序深度。测序灵敏度目前没有统一标准,多数专家认为应与PCR一致。可将微生物或其核酸组成的自定义混合物作为控制对照建立mNGS检测限,也可购买商业化产品,如Zymo BIOMICS标准品,含序列数量以及对应的检测灵敏度。

        人源序列去除:质控后的测序数据需与人源参考基因数据库进行比对过滤人源核酸序列,一般认为去除宿主核酸前人源核酸比例正常范围是85%~99%。人源数据库应至少包括人基因组、转录组、线粒体、核糖体等序列,序列比对常用BWA(Burrows-Wheeler Alignment tool)、Bowtie、SNAP等工具,剩余序列进入微生物鉴定流程。

        生物序列注释包括分析系统、微生物物种序列确认和报告。

        分析系统:一次高通量测序可产生数千万条短序列,灵敏度高的搜索比对软件(如BLAST)对如此庞杂序列比对效率极低。由于公共数据库中微生物基因组数量呈指数增长,这意味着测序结果需与更多的参考序列进行比对,实验室可根据不同软件特点探索最优比对方案。分析流程可自由搭建,但需要严格控制版本,不得随意更改。也可选公开数据分析系统,如PMseq Datician、PIseq pipeline、IDSeq MARSTM、SURPI、One Codex及IDSeq等,免去自主搭建的繁琐过程。

        微生物物种序列确认:将过滤后序列输入微生物数据库,建立细菌、真菌、病毒及寄生虫参考序列的数据索引。常用的物种分析软件有CLARK、Kraken2、LMAT、MEGAN、MetaPhlan、HUMAnN、QIIME、mOTU及MetaPhyler等。其中,CLARK、Kraken2、LMAT是基于Kmer算法的宏基因组分析工具,优点是分析速度快,缺点是比对结果收敛度不理想。MetaPhlan基于物种特异性基因进行比对,优点是数据库容量小、算法简单、计算速度快,缺点是物种鉴定严格依赖物种特异性基因(由生物信息统计得出而非实验数据)的准确性,若测序过程中未能测到物种特异性基因片段,即使存在该物种其他基因片段,比对结果也为阴性。QIIME、mOTU为基于16S rDNA进行物种鉴定的分析软件,对于种水平分类不够精确。过滤大于10%错配或超过3个插入缺失的序列并移除文库构建PCR的重复序列,筛选属或种水平唯一物种序列进行排序。还可通过Kraken2及bracken 等软件利用Kmer注释方法对微生物进行归纳分类。准确鉴定物种的特异性序列数应至少覆盖该物种基因组3个不同区域,必要时可执行DNA-氨基酸的比对或重头组装,以增加新物种发现概率。

        报告:通过实验室自建的信息系统,获得存储于服务器中物种注释信息,打开可视化窗口分析可能的病原微生物。建议将检测到的微生物序列数归一化为RPM或RPTM。在mNGS报告中应含总序列数、微生物序列数、物种信息、测序覆盖度、测序深度及相对丰度,并附加可能的宿主定植菌、环境菌及检测污染菌等信息。无论序列数多少,已知人类传染或感染性病原微生物信息需优先列出,致病性不明确的微生物由高到低逐一列表。无菌部位检出一种高序列数微生物应予以充分重视,病原微生物确认需结合临床综合判断,具体细节参考《高通量宏基因组测序技术检测病原微生物的临床应用规范专家共识》及《中国宏基因组学第二代测序技术检测感染病原体的临床应用专家共识》。

        建议2 生物信息分析人员应遵循mNGS数据分析流程,使用的分析软件应有国家药品监督管理局认证资质,从原始序列到非人源高质量序列的获得以及物种注释需要经过标签识别、测序数据质量和测序深度评估、低质量序列过滤、去人源核酸序列、高质量序列比对等环节,每一步需严格遵守上述流程及具体要求。报告要规范,结果解释应结合临床。

(四)生物信息分析流程的模拟训练

         目前国际上没有标准化生物信息分析的质量控制方法,已开发或正在开发的mNGS生物信息分析软件众多,算法存在较大差异,因此,在确认生物信息分析平台前应进行流程和能力训练。

        1.虚拟参考品:在无mNGS参考品时,实验室需自建或由第三方提供的虚拟参考品对生物信息分析结果的准确性进行评估。一般虚拟参考品选自公共数据库,指在人源序列中掺入微生物基因序列,通过计算机模拟实现序列分析,得到微生物注释结果。如在2 000万条人源序列中可分别掺入20、200、2 000条不同物种的微生物序列,通过计算不同数量级被准确识别的微生物序列数,评价实验室生物信息算法的敏感度和特异度。常用受试者工作特征曲线、查准率-查全率(precision-recall,PR)曲线和L2距离等方法评价敏感度、特异度及精密度等。

        2.真实样本构建的参考品:实验室也可以已知临床样本的下机序列作为参考品,其特点是存在大量人源核酸及低丰度物种序列,通过长期真实样本训练有助于提高生物信息学分析能力和水平。

        阳性标本准备:DNA测序选GeneXpert 判读为结核分枝杆菌复合群(Mycobacterium tuberculosis complex,MTBC)非常低级别的肺泡灌洗液(bronchoalveolar lavage fluid,BALF)。RNA测序选PCR Ct值35~38的流感病毒上呼吸道标本。阴性标本准备:PCR已知病原微生物检测阴性的BALF。本共识建议参考品人源细胞含量应≥105/ml(细胞计数盘计数)。

        按实验室常规操作对下机数据进行生物信息学分析。

        判断标准:针对GeneXpert 非常低级别MTB DNA测序,检出MTB序列即为合格;同样低拷贝RNA病毒(Ct值35~38)检出流感病毒序列即为合格。阴性应与PCR结果一致,即PCR阴性mNGS不应检出,当然不排除检测到其他病原微生物。

        建议3 无论是否为配套还是自建生物信息分析系统,实验室在无mNGS参考品时,应选已知虚拟序列在计算机上进行模拟训练,用于生物信息分析流程、分析软件适用性及数据库质量的评估,优化实验室对下机序列的处理能力。也可采用上文推荐的真实样本构建的参考品对下机序列进行模拟训练。

三、生物信息学分析平台基本要求

        目前主要有华大基因、Illumina和Thermo Fisher等商业化二代测序平台,其中华大与Illumina平台的特点为一次测序中所有序列读长相同,根据测序试剂盒的不同,所获得的序列长度可有50、75、100、150和300 bp几种,对其整体碱基质量要求Q30达到80%以上。而Thermo Fisher一次测序中的序列读长100~300 bp不等,因此设置比对参数时,应注意针对不同的测序平台进行优化。

(一)计算机与服务器

        宏基因组生物信息分析由于数据量巨大,计算复杂度高,需配备足够硬件资源,其中包括中央处理器(central processing unit,CPU)、内存及磁盘存储等,保证单次mNGS下机数据在30 min至1 h内完成批量样本并行分析。除常规CPU外,还可采用图型处理器(graphic processing unit,GPU)与现场可编程门阵列(field programmable gate array,FPGA)等计算异构方式加速分析。实验室应有独立的高性能服务器用于mNGS,不可与其他计算需求共用。服务器应可集成分析流程和数据库,可灵活对接测序得到的数据。根据已发表的研究,推荐配置不低于8~12核心CPU(如Intel Xeon CPU E5-2680 2.80 GHz)、256 Gb内存、50 T存储,可满足大多数现行开源数据分析所需的计算资源。实验室可选购商业高性能服务器,如DELL™ PowerEdge R540等。更大规模样本测序可搭建本地集群服务器,设置内存超过1 Tb的“高性能节点”。

(二)软件

        1.操作系统:建议服务器安装Linux操作系统,如Canonical® Ubuntu® LTS或CentOS。考虑到数据安全,推荐本地服务器部署,离线更新。若采购商业高性能服务器,则无需另外安装操作系统。对涉及分布式计算的大规模计算分析平台,操作系统考虑设置节点管理工具(bsub、qsub),以提高跨节点运算的效率并降低计算任务管理的复杂性。

        2.软件构成:根据病原微生物检测流程将不同功能的软件进行汇聚和整合,常采用的编程语言有Python、Perl、R、C/C++、Java等,软件的部署与安装可采用开源软件包管理工具Conda/Miniconda/Anaconda、pip等减少软件和安装包的依赖,实现检测流程中软件的快速部署,常用的分析软件如下。

        样本测序数据预处理软件:只有经碱基识别、标签识别、序列拆分后的数据才可用于生物信息学分析。以Illumina平台为例,其常用数据格式转换软件为bcl2fastq,该工具可对最原始下机数据(bcl格式)依据序列上的标签进行序列拆分获得不同样本的fastq格式测序数据,并将获取到的fastq格式的原始数据作为自动化流程的输入。

        质量控制软件:将获取的原始数据进行接头、低质量序列过滤,实现从原始数据到高质量的可用数据(含人源序列)的转换,通常采用的软件有Trimmomatic和fastp,一般也是采用fastq格式存储。软件参数的设置需要满足“生物信息分析流程的关键环节”部分提及的序列最低指标参数。

        序列比对软件:去除宿主及其他背景序列后获取的数据通常采用BWA、Bowtie、SNAP等工具进行比对,得到包含比对信息的SAM/BAM格式文件。完成比对后,需统计并确保人源去除前后的序列比例达到样本的要求,即人源核酸比例需要满足“生物信息分析流程的关键环节”部分提及的正常参考范围。

        物种注释软件:注释的目的是完成物种序列的鉴定,可以选择公开数据分析系统。将去除人源后的核酸数据作为输入信息,然后上传到数据平台进行分析即可,如SURPI。自主搭建流程可以采用CLAR、Kraken、MetaPhlan等软件进行物种分类,一般精确到种的水平。软件参数设置也需要满足“生物信息分析流程的关键环节”部分提及的分类筛选指标。

        报告生成软件:报告生成系统的结果展示及项目选择依据实验室和临床需求进行适配调整。具体的实现过程和涉及的相关技术,主要是运用编程自动化工具(Python、PHP、JavaScript等),统计并提取比对分析的结果内容,整合后呈现至界面友好的终端(浏览器)或生成文档(PDF)。报告系统的后台同时具备存储及查询前期已发报告的功能,具体实现技术包括基于经典的关系型数据库(MySQL)或非关系型数据库(MongoDB)进行数据存储和查阅操作。

        3.软件使用:每种软件的使用应配有详细的标准操作规程,推荐有可视化操作界面的软件系统。自建流程若无法实现可视化操作界面,建议在操作指南中写明每一步所需输入的命令、输入数据、输出结果、质量控制及纠错方法,尽可能减少手动步骤的次数。

        4.服务器安装环境:为保障服务器安全稳定运行,服务器放置需配备不间断电源,保持适宜温湿度(温度10~28 ℃,湿度30%~70%);最大可接受的温湿度范围:温度5~28 ℃,湿度30%~80%。

(三)生物信息分析人员

        掌握二代测序数据生物信息分析工具,如BLAST、BWA、Bowtie、fastqc和Samtools等。掌握微生物基因组数据收集、处理等方法,并能实时跟踪更新。了解微生物分类原则、病原微生物的致病性及感染性疾病相关知识。掌握结果报告的具体要求,能发现因测序质量导致的序列读取错误,其他要求参见《高通量宏基因组测序技术检测病原微生物的临床应用规范专家共识》。

        建议4 实验室应具备生物信息学分析的软硬件条件,服务器容量应满足大样本同时下机的数据处理。生物信息人员熟悉各种软件使用方法及功能,掌握物种基因组信息收集、整理、分类、更新及建库方法和软件使用。识别因标本污染、序列质量、测序深度不足及比对错误等产生的异常测序结果,并熟练应用报告生成的信息系统。

四、小结

        利用mNGS技术进行微生物鉴定仍在不断探索和改进中。本共识系统梳理mNGS生物信息分析中的关键环节,对常见问题提出了解决方案,但仍需强调结果解读应建立在临床拟诊及测序质量有保证的前提下,由微生物专家与临床医生共同完成。该技术的广泛应用折射出我国临床微生物基础薄弱、开展项目受限、病原学指导能力不足的现状。如何推动感染性疾病规范化诊疗、推动以疾病诊断为基础的检测试剂注册、推动以疾病分类建设微生物检验技术平台是今后应解决的首要问题。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有