0 Comments

tophat输出结果做RNA-seQC简单介绍

发布于:2015-09-22  |   作者:admin  |   已聚集:人围观

  tophat输出结果主要内容为包含了alignment的bam文件,对bam文件的质量评价可以使用RNA-seQC。可用于一个或者多个bam文件的质量评价。起主要输出结果包含:

—Reads读取覆盖度

总的,独特,复制的Reads

定位的Reads和定位的独特Reads

rRNA Reads

转录-注解Reads(基因内的,基因间的,外显子的和内含子的)

有效表达谱(由外显子产生的Reads数与总测序的Reads数的比值)

—覆盖度

平均覆盖度(Reads/碱基位置)

平均差异系数

5’/3’偏差

覆盖度间隙:数量,长度

覆盖度点

缩减采样

GC偏差

与参考表达谱的相关性

(引用:http://www.plob.org/2011/12/10/877.html

  在对tophat2输出结果做RNA-seQC之前需要做的事情是对bam加入header以及sort,这里使用了一款叫picard-tools-1.74(下载地址:http://sourceforge.net/projects/picard/files/picard-tools/1.74/)的java脚本套件(包含了许多有用的脚本)。

  添加头文件信息:

java -jar picard-tools-1.74/AddOrReplaceReadGroups.jar I=accepted_hits.bam O=accepted_hits_gr.bam LB=lane6 PL=illumina PU=lane6 SM=lane6 >AddorReplaceReadGrups2clippeddata.log 2>&1

  resort(输入文件为已经添加头文件的bam文件,即上一步的输出文件):

java -jar /picard-tools-1.74/ReorderSam.jar I=accepted_hits_gr.bam O=accepted_hits_gr_sort.bam R=genome.fa

  最后就可以将处理之后的bam文件作为RNA-seQC的输入文件,进行质量评价。

标签:生物信息学软件(5)
    输入验证码:
点击我更换验证码