本地blast与nr/nt库 | 您所在的位置:网站首页 › NR数据库物种注释 › 本地blast与nr/nt库 |
步骤一:NT/NR库全库下载
用wget 对数据库进行下载 NT/NR库:https://ftp.ncbi.nlm.nih.gov/blast/db/ NT库有76个子文件构建成NT全库 NR库有63个子文件构建成NR全库 (ncbi网站处理好的文件,不需要建库) https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz 这两个为nr/nt的fasta文件,需要建库 写一个简单的脚本,对nr/nt库进行下载 #!/bin/bash for i in {00..76} do wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/nt.${i}.tar.gz wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/nt.${i}.tar.gz.md5 md5sum -c nt.${i}.tar.gz.md5 tar -zxvf nt.${i}.tar.gz -C echo "nt.${i} has done." done #!/bin/bash for i in {00..63} do wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/nr.${i}.tar.gz wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/nr.${i}.tar.gz.md5 md5sum -c nr.${i}.tar.gz.md5 tar -zxvf nr.${i}.tar.gz -C echo "nr.${i} has done." done注意:下载的时候要加-c参数,避免因网络问题下载失败 下载完后注意删除安装包 步骤二:把序列与nt/nr库进行比对基本用法 蛋白质序列比对蛋白质数据库(blastp) blastp -query seq.fast -out seq.blast -db dbname -outfmt 7 -evalue 1e-5 -num_des criptions 10 -num_threads 8核酸序列比对核算数据库(blastn) blastn -query seq.fasta -out seq.blast -db dbname -outfmt 7 -evalue 1e-5 -num_descriptions 10 -num_threads 8核酸序列比对蛋白质数据库(blastx) blastx -query seq.fasta -out seq.blast -db dbname -outfmt 7 -evalue 1e-5 -num_descriptions 10 -num_threads 8参数: -query: 输入文件路径及文件名 -out:输出文件路径及文件名 -db:格式化了的数据库路径及数据库名 -outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式 -evalue:设置输出结果的e-value值 -num_descriptions:tabular格式输出结果的条数 -num_threads:线程数 创建索引数据库 makeblastdb -in mouse.faa -dbtype nucl -input_type fasta -out dna参数: -in: 输入数据库文件 -dbtype:数据库类型 如果是蛋白质数据库则 nucl改为 prot -out: 索引数据库名称 创建索引文件 dustmasker -in Nuc.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out Nuc_all.asnb参数: in:输入数据库文件 -infmt:输入文件的格式 -parse_seqids:解析序列的id,这个只需要提供参数,不要提供文件名 -outfmt:输出文件的格式,直接填写即可maskinfo_asnl_bin即可。 out:输出文件的文件名(索引文件名)。 创建数据库 makeblastdb -in Nuc.fasta -input_type fasta -dbtype nucl -parse_seqids -mask_data NucDatsBase.asnb -out Nuc_all参数: in:原本我们数据库的文件 input_type:输入文件的格式,很明显,我这里是fasta格式 |
CopyRight 2018-2019 实验室设备网 版权所有 |