性能和准确度

1 WGS

性能

在阿里云的ecs.i4g.8xlarge(32核,128G内存)机型上,存储使用SSD,对多份GIAB WGS数据(30X-40X)进行测试,DCS Tools需要1.79-2.36小时完成从FASTQ到VCF的分析。

数据 运行时间(h) 线程数 最大内存(G)
HG001 30X NovaSeq 1.79 32 100
HG002 30x NovaSeq 2.15 32 112
HG003 30x NovaSeq 1.89 32 120
HG005 40X DNBSEQ-G400 2.36 32 120

aligner步骤若使用低内存索引版本,结果如下

数据 运行时间(h) 线程数 最大内存(G)
HG001 30X NovaSeq 1.97 32 48
HG002 30x NovaSeq 2.31 32 58
HG003 30x NovaSeq 2.00 32 54
HG005 40X DNBSEQ-G400 2.84 32 64

准确度

使用RTG Tools v3.3.2评估DCS Tools的准确度,结果如下:
dcs_tools_accuracy.svg

2 FASTQ压缩工具SeqArc

在阿里云的ecs.c6a.xlarge(4核,8G内存)机型上,针对NA12878 (30X WGS)数据进行压缩和解压测试:

压缩测试结果:

输入数据 时长 压缩后大小 压缩率(相比.gz输入数据)
r1.fq.gz(27G) 27m 24s 5.22G 5.17
r2.fq.gz (30G) 29m 14s 7.32G 4.10

解压测试结果:

输入数据 时长
r1.fq.arc 14m 32s
r2.fq.arc 14m 25s

3 GVCF/VCF压缩工具VarArc

在本地linux集群,对群体变异VCF数据(来自某大型队列)测试,VarArc的表现如下表:

名称 数据来源 gz数据大
小/GB
染色体 样本数 位点数 字段特征 工具 comp_size
(GB)
压缩比 comp_Real
Time(s)
comp_Max
RAM(GB)
压缩速度
MB/s
decomp_Real
Time(s)
decomp_Max
RAM(GB)
解压速度
MB/s
data1 Project 1 15.00 chr1 6w 8w 变异含GT,AD
,DP等字段
VarArc 6.34 2.36 1143 10.7 13.4 319 7.2 48.2
bcftools 18.80 0.80 510 0.2 30.1 357 0.1 43.0
data2 Project 1 25.90 chr10 10.5w 8w 变异含GT,AD
,DP等字段
VarArc 11.26 2.30 1889 13.2 14.0 561 9.3 47.3
bcftools 32.33 0.80 832 0.16 31.9 606.16 0.1 43.8
data3 Project 1 60.70 chr22 10.5w 524w 变异仅含GT
字段
VarArc 53.79 1.13 13772 7.6 4.5 3864 3.2 16.1
bcftools 52.40 1.16 10189 0.06 6.1 8186.85 0.1 7.6

在本地linux集群,对单样本GVCF数据(来自某大型队列)测试,VarArc的表现如下表:

gz数据
大小/GB
工具 comp_size(GB) 压缩比 comp_Real
Time(s)
comp_Max
RAM(GB)
压缩速度
MB/s
decomp_Real
Time(s)
decomp_Max
RAM(GB)
解压速度
MB/s
51.6 VarArc 15.52 3.3 4141.1 14.1 12.8 1213.4 8.9 43.6
bcftools 54.25 1.0 2438.3 0.0 21.7 1474.8 0.0 35.8

4 联合变异检测(Joint Calling)

在公开数据1KGP样本集和内部的多个大规模人群样本集上测试,DCS Tools——jointcaller的计算性能表现如下表:

数据 样本数 进程数(每个进程
分配6g内存)
核时 运行时间
1KGP 2504 256 6963 27.2 hours
Internal 10K 9165 256 21376 83.5 hours
Internal 52K 52000 4400 407760 ~6 days
Internal 105K 105000 3675 1026155 ~19 days

5 体细胞变异检测

使用DCS Tools的Mutect2加速版本,分别在WES和WGS数据上进行测试,使用32线程,可以获得约8倍的提速。

WES数据(normal和tumor各约11G bases)

版本 运行时间
gatk-Mutect2 5824 s
DCS Tools(32线程) 726 s

WGS数据(normal:221G bases,tumor:642G bases)

版本 运行时间
gatk-Mutect2 57.3 h
DCS Tools(32线程) 7.5 h