使用ggmsa可视化和探索多序列比对和相关数据 • ggmsaABiocWorkshop2021 您所在的位置:网站首页 序列比对可视化工具 使用ggmsa可视化和探索多序列比对和相关数据 • ggmsaABiocWorkshop2021

使用ggmsa可视化和探索多序列比对和相关数据 • ggmsaABiocWorkshop2021

2024-07-16 22:27| 来源: 网络整理| 查看: 265

使用ggmsa可视化和探索多序列比对和相关数据 Lang Chau, Guangchuang Yu, Shuangbin Xu and Huina Huang Nov 2021 Source: vignettes/workflow_ggmsa_Chinese.Rmd workflow_ggmsa_Chinese.Rmd 背景介绍 摘要

多序列比对(Multiple Sequence Alignment,MSA)常被用于探索比对序列中的保守区域和变 异区域。而堆叠图形(Stacked Graphs)是在探索过程中最常用的可视化方式。其以行表示 每条序列,以列表示相同位置的不同残基字符。我们开发的R包ggmsa扩展了这种堆叠形 式的可视化方法,并添加了更多可视化方法使用户能更好的观测到MSA的保守区域和变异区 域。另外,ggmsa结合ggtree和ggtreeExtra,可以在大分子层面,观察MSA与表型的 联系。总之,ggmsa可以为用户提供的更多的可视化手段,允许用户从不同角度探索序列 特征。

ggmsa的应用场景 MSA保守和变异位点的可视化

1.MSA中的保守区域:

Sequence Bundles Sequence Logos Stacked MSA + Annotations

2.序列中的特殊变异区域

Sequence Recombination 探索MSA和大分子功能的相关性(分子水平) Tree + MSA + Phenotypes

序列,结构,功能是相互联系,相互影响的,基因组的变异可能可以解释表型的变异。 MSA可视化使基因组位点变异信息在视觉上被观测到;基因位置变异信息可以以箭头表示, 其他表型信息也可以用各种可视化方法表示出来。于是,从在可视化层面的将他们结合起来 是完全可行的。这我们可以在可视化层面观察到的序列变异与特殊表型的关联。

ggmsa的技术路线

ggmsa中的众多可视化方法主要执行两大功能:

在单核苷酸/氨基酸水平更好的展示MSA的保守区域和变异区域; 在分子水平的观察MSA和相关数据的联系; 示例演示 使用不同的可视化方法探索MSA的保守性 堆叠图形

堆叠图形以行表示每条序列,以列表示相同位置的不同残基字符,并根据不同的残基属性, 为字符渲染不同的颜色。通过着色可以快速识别变化趋势。

plot

protein_sequences AAMultipleAlignment with 9 rows and 456 columns #> aln names #> [1] MAAVVLENGVLSRKLSDFGQETSYIE...QLKILADSINSEVGILCNALQKIKS PH4H_Rattus_norve... #> [2] MAAVVLENGVLSRKLSDFGQETSYIE...QLKILADSINSEVGILCHALQKIKS PH4H_Mus_musculus #> [3] MSTAVLENPGLGRKLSDFGQETSYIE...QLKILADSINSEIGILCSALQKIK- PH4H_Homo_sapiens #> [4] MSALVLESRALGRKLSDFGQETSYIE...QLKILADSISSEVEILCSALQKLK- PH4H_Bos_taurus #> [5] --------------------------...LNAGDRQGWADTEDV---------- PH4H_Chromobacter... #> [6] --------------------------...LNAGTREGWADTADI---------- PH4H_Ralstonia_so... #> [7] --------------------------...LTRGT-QAYATAGGRLAGAAAG--- PH4H_Caulobacter_... #> [8] --------------------------...------------------------- PH4H_Pseudomonas_... #> [9] --------------------------...------------------------- PH4H_Rhizobium_loti ggmsa(protein_sequences, start = 221, end = 280, char_width = 0.5, seq_name = TRUE, border = NA) plot

ggmsa函数作为基础函数,接收的MSA数据,控制MSA的可视化范围,配色,字体等参数。 参数选择可以用available系列函数来查看。

available_colors() #> 1.color schemes for nucleotide sequences currently available: #> Chemistry_NT Shapely_NT Taylor_NT Zappo_NT #> 2.color schemes for AA sequences currently available: #> ClustalChemistry_AA Shapely_AA Zappo_AA Taylor_AA LETTER CN6 Hydrophobicity available_fonts() #> font families currently available: #> helvetical mono TimesNewRoman DroidSansMono available_msa() #> 1.files currently available: #> .fasta #> 2.XStringSet objects from 'Biostrings' package: #> DNAStringSet RNAStringSet AAStringSet BStringSet DNAMultipleAlignment RNAMultipleAlignment AAMultipleAlignment #> 3.bin objects: #> DNAbin AAbin 堆叠图形中的注释模块

注释系统也是ggmsa中的一大亮点。类似于ggplot2中图形语法,我们使用 ggmsa() + geom_*()的模式添加注释。不同的geom图层对应不同的注释方法。

ggmsa(protein_sequences, start = 221, end = 280, char_width = 0.5, seq_name = TRUE) + geom_seqlogo() + geom_msaBar() plot

并且不同注释图层是可以叠加使用的: Annotation modules Type Description geom_seqlogo() geometric layer automatically generated sequence logos for a MSA geom_seed() annotation module highlights seed region on miRNA sequences geom_msaBar() annotation module shows sequences conservation by a bar chart geom_helix() annotation module depicts RNA secondary structure as arc diagrams(need extra data)

注释模块还可以接收外部数据。RNA的二级结构可以以弧线图的形式添加到MSA。 弧线连接的两个MSA位置表示在结构上是配对的。

使用ggmsa() + geom_helix()的模式可以将二级结构数据整合到MSA图形中。

RNA7S [1] nlme_3.1-153 bitops_1.0-7 fs_1.5.0 #> [4] webshot_0.5.2 httr_1.4.2 ash_1.0-15 #> [7] rprojroot_2.0.2 tools_4.1.1 utf8_1.2.2 #> [10] R6_2.5.1 KernSmooth_2.23-20 lazyeval_0.2.2 #> [13] colorspace_2.0-2 withr_2.4.2 tidyselect_1.1.1 #> [16] ggalt_0.4.0 curl_4.3.2 compiler_4.1.1 #> [19] extrafontdb_1.0 rvest_1.0.2 textshaping_0.3.6 #> [22] xml2_1.3.2 desc_1.4.0 labeling_0.4.2 #> [25] scales_1.1.1 proj4_1.0-10.1 quadprog_1.5-8 #> [28] pkgdown_1.6.1 systemfonts_1.0.3 stringr_1.4.0 #> [31] digest_0.6.28 yulab.utils_0.0.4 R4RNA_1.22.0 #> [34] svglite_2.0.0 rmarkdown_2.11 pkgconfig_2.0.3 #> [37] htmltools_0.5.2 extrafont_0.17 highr_0.9 #> [40] fastmap_1.1.0 maps_3.4.0 rlang_0.4.12 #> [43] rstudioapi_0.13 gridGraphics_0.5-1 jquerylib_0.1.4 #> [46] farver_2.1.0 generics_0.1.1 jsonlite_1.7.2 #> [49] RCurl_1.98-1.5 magrittr_2.0.1 ggplotify_0.1.0 #> [52] GenomeInfoDbData_1.2.7 patchwork_1.1.1 Matrix_1.3-4 #> [55] Rcpp_1.0.7 munsell_0.5.0 fansi_0.5.0 #> [58] ggfittext_0.9.1 lifecycle_1.0.1 stringi_1.7.5 #> [61] yaml_2.2.1 seqmagick_0.1.5 MASS_7.3-54 #> [64] zlibbioc_1.40.0 grid_4.1.1 parallel_4.1.1 #> [67] crayon_1.4.2 lattice_0.20-45 magick_2.7.3 #> [70] knitr_1.36 pillar_1.6.4 igraph_1.2.7 #> [73] codetools_0.2-18 fastmatch_1.1-3 glue_1.4.2 #> [76] evaluate_0.14 ggfun_0.0.4 vctrs_0.3.8 #> [79] treeio_1.18.0 tweenr_1.0.2 gggenes_0.4.1 #> [82] cellranger_1.1.0 Rttf2pt1_1.3.9 gtable_0.3.0 #> [85] purrr_0.3.4 polyclip_1.10-0 tidyr_1.1.4 #> [88] cachem_1.0.6 xfun_0.27 ggforce_0.3.3 #> [91] tidytree_0.3.5 viridisLite_0.4.0 ragg_1.2.0 #> [94] tibble_3.1.5 memoise_2.0.0 ellipsis_0.3.2


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有