基于CLC装配单元3.0的从头组装白皮书
CLC Assembly Cell是一种高性能的计算解决方案,用于下一代测序数据的读映射和从头组装。CLC Assembly Cell的命令行界面使功能可以很容易地包含在脚本和其他下一代测序工作流程中。
CLC汇编单元利用SIMD指令并行化和加速汇编算法,使程序成为目前最快的下一代测序汇编程序。
这是一份关于CLC Assembly Cell 3.0中的从头组装程序的白皮书。请注意,CLC Genomics Workbench和CLC Genomics Server使用了相同的算法,所以除了性能基准(速度和内存)之外,本白皮书也适用于这些产品的下一个版本。
该汇编程序设计用于组合来自Illumina、454、SOLiD和Sanger测序的混合数据,包括单端和成对的末端读取。对于成对端数据,可以在同一程序集中组合不同的插入大小。请注意,在当前版本中,成对端SOLiD数据可用于后处理步骤,将contig链接在一起。
本白皮书由三部分组成:第一部分解释了汇编器的工作原理,下一部分重点介绍了人类数据集的大型基因组组装,我们将我们的汇编器与ABySS汇编器进行了比较,后者也能够组装人类基因组大小的数据集[Simpson et al., 2009]。第三部分报告了一个较小的细菌数据集的结果,其中重点是质量,我们将我们自己的组装的质量和性能与流行的开源组装算法之一天鹅绒进行了比较[Zerbino和Birney, 2008]。
广告