一文看懂病原微生物检测（下篇）

2024-07-13 14:34| 来源: 网络整理| 查看: 265

作者：biofan 审稿：童蒙编辑：amethyst

继一文看懂病原微生物检测（上篇）介绍了样本采集、实验建库及测序的相关内容，这篇让小编带领大家了解一下病原微生物检测的信息分析流程。

信息分析流程

一般而言，mNGS的成功除了严格的实验条件之外呢，还需要严格的信息分析的流程。基本步骤如下： 1.数据质控 2.去除人基因组 3.与数据库比对，鉴定病原微生物 4.生成报告

01 数据质控

数据质控主要包括去除低质量的reads，去除adapter等等，可以用fastp（https://github.com/opengene/fastp）来快速实现数据质控。

02 去除人源污染

由于测序数据中，人源背景占据90% 以上，为了排除人源序列的干扰，所以一般质控之后必须去除人的基因组（如IDseq用多种比对方式去除人的基因组）。

而不同的软件去除人的基因组的比例也有所不同，比如IDseq统计结果（如下图）。

03 鉴定病原微生物

构建病原数据库鉴定病原微生物的核心是要构建病原微生物的库。一般而言，数据库往往从NCBI进行下载并加以整理。

NR/NT数据库

NR（Non-Redundant Protein Sequence Database）是非冗余蛋白库，包含所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列，对于所有已知的或可能的编码序列，NR记录中都给出了相应的氨基酸序列（通过已知或可能的读码框推断而来）以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引，将核酸数据和蛋白数据联系起来。

NT（Nucleotide Sequence Database）是核酸序列数据库，是NR库的子集，NT，NR 数据库可通过ftp://ftp.ncbi.nih.gov/blast/db/FASTA/ 这个链接进行下载整理。

RefSeq数据库

RefSeq数据库是参考序列数据库，包含RefSeq_genomic（NCBI genomic reference sequences），RefSeq_protein（NCBI protein reference sequences）和RefSeq transpans（NCBI transpans reference sequences），是具有生物意义上的非冗余基因、转录本和蛋白质序列，是经过NCBI和其他组织校正的数据库。RefSeq数据库可通过ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ 这个链接进行下载整理。

Taxonomy物种库

Taxonomy是NCBI的分类数据库，包括大约7万余个物种的名字和种系，这些物种至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学，可从https://ftp.ncbi.nih.gov/pub/taxonomy/ 这个链接进行下载整理。

而关于taxdump文件夹里有相应的readme，对每个文件进行了细致的描述。此外网上一篇文章也进行了详细阐述https://blog.csdn.net/u011262253/article/details/95304930 。

如果是自己动手搭建流程的话，就可以根据不同的比对软件，构建相应的索引啦。

微生物鉴定分析软件目前包含建库、质控、比对以及出具报告的比较全面软件有OneCodex，Sunbeam，SUPRI 和IDSeq。OneCodex，Sunbeam是需要付费。非流程性的快速检测的软件包括kraken，pathseq，kaiju等等。

我们选择其中几个，介绍一下。 SURPI SURPI提供比较老2014年的代码，在Github开源（https://github.com/chiulab/SURPI-plus-dist），但建议大家不要尝试，因为当你费劲千辛万苦装完了一系列的的依赖，安装完相应的库后，你会发现流程可执行性很差，以过来人的身份建议还是莫要轻易尝试，很容易竹篮打水一场空，而SURPI最新版本需要付费订阅。

IDSeq IDseq流程目前属于开源的状态。可以通过Github 进行下载。 IDSeq提供的资源有：

idseq-web - Frontend portal idseq-workflows - Bioinformatics workflows idseq-cli - Command line upload interface idseq-bench - Pipeline benchmarking tools (here) 其参考数据库需要从从Amazon S3下载（https://github.com/chanzuckerberg/idseq-workflows/wiki/Running-WDL-workflows-locally）。

Kraken kraken软件在不断更新，2014年发布kraken1，2018年发布krakenUniq以及2019年发表了kraken2。kraken是一款速度比较快，准确度较高，安装极为方便的软件。kraken2可从Github 下载安装（https://github.com/DerrickWood/kraken2）。

Kraken2软件安装即为简单，只需如下命令：

sh install_kraken2.sh ${install_path} Kraken2构建数据库也很方便，根据不同参数利用kraken2-build即可完成数据库下载和建立索引工作（例如以下命令）： kraken2-build --standard --db $DBNAME kraken2-build --build --db $DBNAME

kraken检测病原体可以输入fasta或fastq文件。 kraken2 --db $DBNAME seqs.fa kraken2 --paired --classified-out cseqs#.fq seqs_1.fq seqs_2.fq

最后输出样本的物种注释信息（如下）： C @SRR1106119.1.1 1 2697049 29903 2697049:15

结果共5列：第一列 "C"/"U"：是序列的分类（C:分类;U:未分类）；第二列是reads的ID号；第三列是taxonomy ID；第四列和第五列分别是测序reads长度以及kmer的LCA映射。

04 报告生成

检测报告一般需要涵盖病毒、细菌、真菌以及寄生虫检出序列条数，以及覆盖度等信息。

如果mNGS 检测报告中提示某种 / 某些微生物检出序列数较高、基因组覆盖度高，表示检测到该病原微生物 ; 在排除背景菌、污染菌和定植菌的情况下，可以考虑该微生物是致病病原体，可以结合患者的临床特征、当地细菌耐药的流行病学协助指导抗菌药物的选择。

结语

以上便是对病原微生物的简单介绍，希望大家能从背景、临床实验以及信息分析流程对病原微生物检测有一定的了解。后续我们会持续介绍的，请大家多多关注。

参考文献 IDseq—An open source cloud-based pipeline and analysis service for metagenomic pathogen detection and monitoring A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples Improved metagenomic analysis with Kraken 2 宏基因组分析和诊断技术在急危重症感染应用的专家共识

【本文地址】

公司简介

联系我们