重复序列
软件下载安装
picard 去重
重复序列
什么是重复序列?
目的片段在建库PCR扩增时,多次重复拷贝的序列。
如何产生?
由PCR过程中所引入的, 构建测序文库时,通过物理(超声)打断或者化学试剂(酶切)切断原始的DNA序列,然后选择特定长度范围的序列去进行PCR扩增再测序。PCR扩增就是把原来的一段DNA序列复制多次。
为什么需要去除掉?
PCR反应过程中出现其他非真实变异的碱基错误,其他情况。
软件下载安装
下载:https://github.com/broadinstitute/picard/releases/latest
上述网页会提供三个下载文件选项picard.jar,Source code (zip),Source code (tar.gz)
一般选择第一个可以直接进行使用。
1. 标记重复序列,以供后续的下游分析(如:GATK)
java -jar picard.jar MarkDuplicateI=A1001325-1PC-L1.sort.bamO=A1001325-1PC-L1.sort.redup.bamM=picard.txt
2. 直接删除bam 文件中的重复序列,则将REMOVE_DUPLICATES设置为
true.java -jar picard.jar MarkDuplicateREMOVE_DUPLICATES=trueI=A1001325-1PC-L1.sort.bamO=A1001325-1PC-L1.sort.redup.bamM=picard.txt
3. 对bam 文件进行排序
java -jar picard.jar SortSamI=A1001325-1PC-L1.sort.bamO=A1001325-1PC-L1.namesort.bamSO=queryname
总结
是否去重,取决于的建库方式,测序策略,项目要求。
参考:
"去重"在肺癌NGS数据分析中的重要作用 doi:10.3971/j.issn.1000-8578.2018.17.0954
https://xueshu.baidu.com/usercenter/paper/show?paperid=261a2db7ac1b4cf570398c2306bd4463
文章转载自罗大黑学生信,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




