1 WGS
性能
在阿里云的ecs.i4g.8xlarge(32核,128G内存)机型上,存储使用SSD,对多份GIAB WGS数据(30X-40X)进行测试,DCS Tools需要1.79-2.36小时完成从FASTQ到VCF的分析。
| 数据 | 运行时间(h) | 线程数 | 最大内存(G) |
|---|---|---|---|
| HG001 30X NovaSeq | 1.79 | 32 | 100 |
| HG002 30x NovaSeq | 2.15 | 32 | 112 |
| HG003 30x NovaSeq | 1.89 | 32 | 120 |
| HG005 40X DNBSEQ-G400 | 2.36 | 32 | 120 |
aligner步骤若使用低内存索引版本,结果如下
| 数据 | 运行时间(h) | 线程数 | 最大内存(G) |
|---|---|---|---|
| HG001 30X NovaSeq | 1.97 | 32 | 48 |
| HG002 30x NovaSeq | 2.31 | 32 | 58 |
| HG003 30x NovaSeq | 2.00 | 32 | 54 |
| HG005 40X DNBSEQ-G400 | 2.84 | 32 | 64 |
准确度
使用RTG Tools v3.3.2评估DCS Tools的准确度,结果如下:
2 FASTQ压缩工具SeqArc
在阿里云的ecs.c6a.xlarge(4核,8G内存)机型上,针对NA12878 (30X WGS)数据进行压缩和解压测试:
压缩测试结果:
| 输入数据 | 时长 | 压缩后大小 | 压缩率(相比.gz输入数据) |
|---|---|---|---|
| r1.fq.gz(27G) | 27m 24s | 5.22G | 5.17 |
| r2.fq.gz (30G) | 29m 14s | 7.32G | 4.10 |
解压测试结果:
| 输入数据 | 时长 |
|---|---|
| r1.fq.arc | 14m 32s |
| r2.fq.arc | 14m 25s |
3 GVCF/VCF压缩工具VarArc
在本地linux集群,对群体变异VCF数据(来自CKB项目)测试,VarArc的表现如下表:
| 名称 | 数据来源 | gz数据大 小/GB |
染色体 | 样本数 | 位点数 | 字段特征 | 工具 | comp_size (GB) |
压缩比 | comp_Real Time(s) |
comp_Max RAM(GB) |
压缩速度 MB/s |
decomp_Real Time(s) |
decomp_Max RAM(GB) |
解压速度 MB/s |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| data1 | CKB | 15.00 | chr1 | 6w | 8w | 变异含GT,AD ,DP等字段 |
VarArc | 6.34 | 2.36 | 1143 | 10.7 | 13.4 | 319 | 7.2 | 48.2 |
| bcftools | 18.80 | 0.80 | 510 | 0.2 | 30.1 | 357 | 0.1 | 43.0 | |||||||
| data2 | CKB | 25.90 | chr10 | 10.5w | 8w | 变异含GT,AD ,DP等字段 |
VarArc | 11.26 | 2.30 | 1889 | 13.2 | 14.0 | 561 | 9.3 | 47.3 |
| bcftools | 32.33 | 0.80 | 832 | 0.16 | 31.9 | 606.16 | 0.1 | 43.8 | |||||||
| data3 | CKB | 60.70 | chr22 | 10.5w | 524w | 变异仅含GT 字段 |
VarArc | 53.79 | 1.13 | 13772 | 7.6 | 4.5 | 3864 | 3.2 | 16.1 |
| bcftools | 52.40 | 1.16 | 10189 | 0.06 | 6.1 | 8186.85 | 0.1 | 7.6 |
在本地linux集群,对单样本GVCF数据(来自CKB项目)测试,VarArc的表现如下表:
| gz数据 大小/GB |
工具 | comp_size(GB) | 压缩比 | comp_Real Time(s) |
comp_Max RAM(GB) |
压缩速度 MB/s |
decomp_Real Time(s) |
decomp_Max RAM(GB) |
解压速度 MB/s |
|---|---|---|---|---|---|---|---|---|---|
| 51.6 | VarArc | 15.52 | 3.3 | 4141.1 | 14.1 | 12.8 | 1213.4 | 8.9 | 43.6 |
| bcftools | 54.25 | 1.0 | 2438.3 | 0.0 | 21.7 | 1474.8 | 0.0 | 35.8 |
4 联合变异检测(Joint Calling)
在公开数据1KGP样本集和内部的多个大规模人群样本集上测试,DCS Tools——jointcaller的计算性能表现如下表:
| 数据 | 样本数 | 进程数(每个进程 分配6g内存) |
核时 | 运行时间 |
|---|---|---|---|---|
| 1KGP | 2504 | 256 | 6963 | 27.2 hours |
| Internal 10K | 9165 | 256 | 21376 | 83.5 hours |
| Internal 52K | 52000 | 4400 | 407760 | ~6 days |
| Internal 105K | 105000 | 3675 | 1026155 | ~19 days |
5 体细胞变异检测
使用DCS Tools的Mutect2加速版本,分别在WES和WGS数据上进行测试,使用32线程,可以获得约8倍的提速。
WES数据(normal和tumor各约11G bases)
| 版本 | 运行时间 |
|---|---|
| gatk-Mutect2 | 5824 s |
| DCS Tools(32线程) | 726 s |
WGS数据(normal:221G bases,tumor:642G bases)
| 版本 | 运行时间 |
|---|---|
| gatk-Mutect2 | 57.3 h |
| DCS Tools(32线程) | 7.5 h |