基于全基因组的基因家族分析(1):数据准备 您所在的位置:网站首页 番茄社区怎么了下载 基于全基因组的基因家族分析(1):数据准备

基于全基因组的基因家族分析(1):数据准备

2024-06-20 09:46| 来源: 网络整理| 查看: 265

1.基因组下载网站介绍

Sol Genomics Net:茄科基因组网络,里面包括了很多物种的基因组测序结果:番茄,土豆,茄子等。而且基因组更新最快,搜索了一下发现NCBI番茄基因组和Phytozome番茄基因组为ITAG2.4,而SGN已经是最新版本的ITAG3.2,当然以前的版本也都存在,特别方便。 此外,NCBI ProteinID是refseq accession(GENBANK文件格式有关于NCBI中ID的说明),在最后转换到番茄protein ID时会有问题,小编最后终于放弃,没有找到转换的方法(谁要是知道方法,麻烦告诉我一下,一直很苦恼)。而Phytozome要下载这些数据居然还要注册,真的有点烦,偷偷告诉你,SGN貌似也要注册(这个大家应该都没有什么问题,就直接跳过)。

刚开始选择很关键,最好我觉得还是选择最新的版本,SGN还是比较信赖。而且在后面分析基因家族的时候,会出现家族数量相差比较大,可能有10个左右的差距,新版本的基因会多。(小编因为做的跟番茄相关,所以选择了番茄,对这些网站稍微熟悉一点,大家可以选择自己熟悉的领域相应选择)。

SGN

Pythozome

NCBI

NCBI RefSeq Accession

SGN完整版基因组

2.序列相关文件下载

基础文件一般我们下载4个:CDS.fa、Protein.fa、GFF.gff3和Genome.fa

代码语言:javascript复制# 小编在home目录下新建sra目录,所有数据都放在这个目录里面 cd ~/sra # 全基因组CDS序列下载 wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_CDS.fasta # protein序列下载 wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_proteins.fasta # gff注释文件下载 wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_gene_models.gff # genome序列下载 wget ftp://ftp.solgenomics.net/tomato_genome/assembly/build_3.00/S_lycopersicum_chromosomes.3.00.fa.tar.gz # 解压genome压缩文件 tar -zxvf S_lycopersicum_chromosomes.3.00.fa.tar.gz && rm S_lycopersicum_chromosomes.3.00.fa.tar.gz


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有