1 WGS

性能

在阿里云的ecs.i4g.8xlarge(32核,128G内存)机型上,存储使用SSD,对多份GIAB WGS数据(30X-40X)进行测试,DCS Tools需要1.79-2.36小时完成从FASTQ到VCF的分析。

数据 运行时间(h) 线程数 最大内存(G)
HG001 30X NovaSeq 1.79 32 100
HG002 30x NovaSeq 2.15 32 112
HG003 30x NovaSeq 1.89 32 120
HG005 40X DNBSEQ-G400 2.36 32 120

aligner步骤若使用低内存索引版本,结果如下

数据 运行时间(h) 线程数 最大内存(G)
HG001 30X NovaSeq 1.97 32 48
HG002 30x NovaSeq 2.31 32 58
HG003 30x NovaSeq 2.00 32 54
HG005 40X DNBSEQ-G400 2.84 32 64

准确度

使用RTG Tools v3.3.2评估DCS Tools的准确度,结果如下:
dcs_tools_accuracy.svg

2 FASTQ压缩工具SeqArc

在阿里云的ecs.c6a.xlarge(4核,8G内存)机型上,针对NA12878 (30X WGS)数据进行压缩和解压测试:

压缩测试结果:

输入数据 时长 压缩后大小 压缩率(相比.gz输入数据)
r1.fq.gz(27G) 27m 24s 5.22G 5.17
r2.fq.gz (30G) 29m 14s 7.32G 4.10

解压测试结果:

输入数据 时长
r1.fq.arc 14m 32s
r2.fq.arc 14m 25s

3 GVCF/VCF压缩工具VarArc

在本地linux集群,对群体变异VCF数据(来自CKB项目)测试,VarArc的表现如下表:

名称 数据来源 gz数据大
小/GB
染色体 样本数 位点数 字段特征 工具 comp_size
(GB)
压缩比 comp_Real
Time(s)
comp_Max
RAM(GB)
压缩速度
MB/s
decomp_Real
Time(s)
decomp_Max
RAM(GB)
解压速度
MB/s
data1 CKB 15.00 chr1 6w 8w 变异含GT,AD
,DP等字段
VarArc 6.34 2.36 1143 10.7 13.4 319 7.2 48.2
bcftools 18.80 0.80 510 0.2 30.1 357 0.1 43.0
data2 CKB 25.90 chr10 10.5w 8w 变异含GT,AD
,DP等字段
VarArc 11.26 2.30 1889 13.2 14.0 561 9.3 47.3
bcftools 32.33 0.80 832 0.16 31.9 606.16 0.1 43.8
data3 CKB 60.70 chr22 10.5w 524w 变异仅含GT
字段
VarArc 53.79 1.13 13772 7.6 4.5 3864 3.2 16.1
bcftools 52.40 1.16 10189 0.06 6.1 8186.85 0.1 7.6

在本地linux集群,对单样本GVCF数据(来自CKB项目)测试,VarArc的表现如下表:

gz数据
大小/GB
工具 comp_size(GB) 压缩比 comp_Real
Time(s)
comp_Max
RAM(GB)
压缩速度
MB/s
decomp_Real
Time(s)
decomp_Max
RAM(GB)
解压速度
MB/s
51.6 VarArc 15.52 3.3 4141.1 14.1 12.8 1213.4 8.9 43.6
bcftools 54.25 1.0 2438.3 0.0 21.7 1474.8 0.0 35.8

4 联合变异检测(Joint Calling)

在公开数据1KGP样本集和内部的多个大规模人群样本集上测试,DCS Tools——jointcaller的计算性能表现如下表:

数据 样本数 进程数(每个进程
分配6g内存)
核时 运行时间
1KGP 2504 256 6963 27.2 hours
Internal 10K 9165 256 21376 83.5 hours
Internal 52K 52000 4400 407760 ~6 days
Internal 105K 105000 3675 1026155 ~19 days

5 体细胞变异检测

使用DCS Tools的Mutect2加速版本,分别在WES和WGS数据上进行测试,使用32线程,可以获得约8倍的提速。

WES数据(normal和tumor各约11G bases)

版本 运行时间
gatk-Mutect2 5824 s
DCS Tools(32线程) 726 s

WGS数据(normal:221G bases,tumor:642G bases)

版本 运行时间
gatk-Mutect2 57.3 h
DCS Tools(32线程) 7.5 h