暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

序列去重-软件picard

罗大黑学生信 2021-07-07
3991

目录

重复序列

软件下载安装

picard 去重


重复序列

什么是重复序列?

        目的片段在建库PCR扩增时,多次重复拷贝的序列。


如何产生?

        由PCR过程中所引入的, 构建测序文库时,通过物理(超声)打断或者化学试剂(酶切)切断原始的DNA序列,然后选择特定长度范围的序列去进行PCR扩增再测序。PCR扩增就是把原来的一段DNA序列复制多次。


为什么需要去除掉?

        PCR反应过程中出现其他非真实变异的碱基错误,其他情况。


软件下载安装

下载:https://github.com/broadinstitute/picard/releases/latest

上述网页会提供三个下载文件选项picard.jar,Source code (zip),Source code (tar.gz)

一般选择第一个可以直接进行使用。


1. 标记重复序列,以供后续的下游分析(如:GATK)

java -jar picard.jar MarkDuplicate
I=A1001325-1PC-L1.sort.bam
O=A1001325-1PC-L1.sort.redup.bam
M=picard.txt


2. 直接删除bam 文件中的重复序列,则将REMOVE_DUPLICATES设置为

true.
java -jar picard.jar MarkDuplicate
REMOVE_DUPLICATES=true
I=A1001325-1PC-L1.sort.bam
O=A1001325-1PC-L1.sort.redup.bam
M=picard.txt


3. 对bam 文件进行排序

java -jar picard.jar SortSam 
I=A1001325-1PC-L1.sort.bam
O=A1001325-1PC-L1.namesort.bam
SO=queryname

总结

是否去重,取决于的建库方式,测序策略,项目要求。




参考:

"去重"在肺癌NGS数据分析中的重要作用 doi:10.3971/j.issn.1000-8578.2018.17.0954

https://xueshu.baidu.com/usercenter/paper/show?paperid=261a2db7ac1b4cf570398c2306bd4463











文章转载自罗大黑学生信,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论