转录组 您所在的位置:网站首页 atcg含量 转录组

转录组

2024-07-04 18:52| 来源: 网络整理| 查看: 265

生信技能树学习笔记

Raw data背景

先了解

测序长度单端/双端?测序对象 mRNA?lncRNA?fastq数据格式

Raw data 或 Raw reads 结果以FASTQ文件格式存储

结果每四行一显示

第一行 @开头,随后为illumina测序识别符合描述文字第二行 碱基序列第三行 +开头第四行 对应序列的测序质量的ASCII码 Base calling,Q值越大精度越高,ASCII数值减33得到Q值质控——fastqc

常用参数

-o --outdir 设置输出目录-t --threads 同时处理几个样本

将html文件下载到本地,解读 QC 报告

Basic Statistics——GC 30-60%Per base sequence quality——横坐标为碱基位置,纵坐标为Q值Per tile sequence quality——好的结果应该是全蓝色Per sequence quality scores——横坐标为平均Q值,纵坐标为每个Q值对应的reads数(应该呈现拖尾的分布)Per base sequence content——每个碱基位置上ATCG含量的分布图,AT和GC应分别相等,呈水平线,开头允许少许抖动Per sequence GC content——横坐标为平均GC含量,纵坐标为每个GC含量对应的序列数量,蓝色为理论值,红色为测量值,二者越接近越好Per base N content——N含量分布Sequence Length Distribution——长度分布Sequence Duplication levels——序列的重复度Overrepresented sequences——转录组中某个Adapter Content——接头含量,表示序列中两端adapter的情况

使用MultiQC整合FastQC结果

数据过滤

如何判断数据需要过滤?

质量控制标准

去除含接头的reads过滤去除低质量值数据,确保数据质量去除含有N(无法确定碱基信息)的比例大于5%(根据实际情况)的reads数据过滤方式一:trim_galore

常用参数

-q --quality 切除质量得分低于设置值的序列,默认值20--length 长度小于设定值的reads将被丢弃--max_n 去除含有碱基数大于N的序列--stringency 限定最少与adaptor序列重叠的碱基数数据过滤方式二:fastp

速度比 trim_galore 快

常用参数

-i, -I 后接需要过滤的fastq文件-o,-O 后接过滤玩输出的fastq文件名 【注意大小写和reads1/2前后对应】-n --n_base_limit 限制N个数-q 设置碱基质量阈值,默认阈值为15-l 小写的L 设置 read 的最小长度,默认是15,长度<15 的 read 将被丢弃过滤数据比较附录前台转后台检查脚本内容

使用echo打印命令,进行检查

掐头去尾获得样本ID


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有