opitype:对HLA I型基因进行4位分型

2024-03-29 23:15| 来源: 网络整理| 查看: 265

欢迎关注"生信修炼手册"！

HLAminer软件可以同时对HlA I型基因和II 型基因进行分型，但是分型结果中不可避免的会存在假阳性的结果。为了提高分型结果的准确性，不同的研究团队都在开发新的工具和算法，Opitype是一款专门针对HLA I型基因进行分型的软件，可以提供精确的4位分型结果。

利用测试数据集，与HLAminer, HLAForest 等软件进行比较，结果如下

从图中可以看到，不论是基因组的数据，还是转录组的数据，opitype提供的4位分型结果的准确率都高于HLAminer和HLAforest。

github 地址如下：

https://github.com/FRED-2/OptiType

如果从源代码进行安装，费时费力，所以官方提供了docker 镜像，直接安装docker 镜像就可以了，代码如下

docker pull fred2/optitype

opitype的使用分成以下两步：

1. 采用 razers3 比对参考序列数据库

razers是一款比对工具，可以从原始的测序数据中筛选出属于HLA基因的reads。opitype利用HLA I型基因exon2到exon3的DNA序列构建了一个参考数据库，如果reads能够比对到这个参考数据库，认为这些reads来自与HLA基因。用法如下

docker run -v /home:/home --entrypoint="razers3" fred2/optitype -i 95 -m 1 -dr 0 -o /home/R1.bam /home/OptiType/data/hla_reference_dna.fasta /home/R1.fastq docker run -v /home:/home --entrypoint="razers3" fred2/optitype -i 95 -m 1 -dr 0 -o /home/R2.bam /home/OptiType/data/hla_reference_dna.fasta /home/R2.fastq

这里需要注意docker镜像用法，一定要添加entrypoint参数，指定运行的程序为razers3; 如果不指定这个参数，容器默认运行OptiTypePipeline.py。

比对会生成一个bam文件，在这个bam文件中，只保存了比对上的序列，直接利用samtools挑选出比对上的reads就可以了，用法如下

samtools fastq R1.bam > R1_fished.fastq samtools fastq R2.bam > R2_fished.fastq

由于生成的bam文件第二列的flag的值都为0，没有实际意义，所以不论是单端测序还是双端测序的数据, 都只能对fastq文件单独处理。

2. 进行基因分型

调用OptiTypePipeline.py进行基因分型，用法如下

docker run -v /home:/home fred2/optitype -i /home/R1_fished.fastq /home/R2_fished.fastq --dna -v -o /home/test/

在结果目录会生成如下两个文件：

├── 2018_07_19_02_29_14_coverage_plot.pdf └── 2018_07_19_02_29_14_result.tsv

文件名前的日期是当前日期，后缀分别为pdf和tsv。PDF文件示意如下