page banner

LIUDUS®平台

(LOW-INPUT, ULTRA-DEEP, ULTRA-SENSITIVE)

近些年来,海普洛斯开发出数款性能优异的生物信息学软件、机器学习模型和数据库,形成底层数据处理基础设施,可以有效地处理复杂的测序数据,并有效地消除错误,准确检测和解释低频突变。

生物信息学软件

01

Fastp

为改进数据预处理性能,海普洛斯开发了Fastp,其集成质量控制、接头序列去除、低质量碱基过滤及UMI预处理等功能,实现了原始下机数据一体化预处理。Fastp基于C++语言,支持多线程,运行速度是同类软件的两至五倍,同时能够提供相当甚至更好的数据过滤结果。


Fastp于2018年9月在Bioinformatics上发表,至今获引超过6600次,获引次数在过去五年中国研究人员发表的论文中排名前五,并在GitHub上作为开源工具供大家使用。

02

Gencore

Gencore是海普洛斯开发的一款去除冗余测序数据的软件。该软件可提供快速、高效的PCR去重和同源序列聚类功能,同时能够处理UMI信息,提供丰富的统计报告,以促进质控和下游分析。


PCR重复是对同一DNA模板进行多轮PCR扩增和测序产生的。PCR重复可能包含导致假阳性突变的错误,其被大多数分析流程去除。然而,现有PCR去重软件大多数无法处理UMI数据,或者速度缓慢、内存密集,且缺乏为质控及下游分析提供信息的统计结果。Gencore成功攻克了同类软件的难题。


Gencore于2019年12月在BMC Bioinformatics上发表,并在GitHub上作为开源工具供大家使用。

03

MutScan

MutScan是海普洛斯开发的一款用于目标突变检测及可视化的高性能生物信息学软件。该软件旨在提高检测敏感性,并为目标突变提供有效验证。


与传统多步骤的突变检测流程相比,MutScan使用高容错性的字符串搜索算法,直接从原始FASTQ文件中搜索目标突变,进一步通过网页版突变报告检验目标突变的可靠性,用户可以通过多个指标,如突变支持数和碱基质量等,综合评估突变的可信度。


MutScan于2018年1月在BMC Bioinformatics上发表,并在GitHub上作为开源工具供大家使用。

04

GeneFuse

GeneFuse是海普洛斯开发的一款快速、灵敏的生物信息学软件,用于目标融合基因的检测及可视化。


GeneFuse专注于检测具有临床意义的已知融合基因,不同于大多数依赖于将测序序列与参考基因组比对的软件,GeneFuse通过直接扫描原始测序数据来检测基因融合,这使它能够规避由于比对错位而引入的假阳性或假阴性问题,因此具有更高的敏感度和特异性。


GeneFuse于2018年5月在International Journal of Biological Sciences上发布,并在GitHub上作为开源工具供使用。

05

FineMSI

FineMSI是海普洛斯开发的一款用于分析微卫星位点、确定MSI状态的生物信息学工具。


FineMSI 基于EMD算法(Earth Mover's Distance),通过对MSI高度不稳定和低度不稳定两类肿瘤NGS测序数据进行训练,评估两个类型之间的差异,EMD值即表示MSI不稳定程度。


与现有金标准相比,FineMSI覆盖更多微卫星位点。在验证研究中,与其他NGS检测方法相比,FineMSI表现出较更高的灵敏度和特异性,反映了FineMSI作为确定MSI状态的准确方法的潜力。

机器学习

机器学习在复杂图像去噪及目标识别方面,具有强大的能力。海普洛斯建立了机器学习工作流,并不断用真实世界数据进行模型训练,以消除测序数据中的背景噪音,减少人工干预,提高癌症低频突变的检测能力。


海普洛斯开发了已获得专利授权的工具MrBam,该工具通过使用大量背景噪音和假阳性突变位点数据进行机器学习模型训练,实现变异噪音过滤。同时,海普洛斯也开发了用于分类问题的机器学习方法,如TCRnodseek,用于区分良恶性肺结节,对早期肺癌进行检测。

01

TCRnodseek

为了能够对良恶性肺结节进行准确分类,海普洛斯与四川省肿瘤医院联合开发了TCRnodseek。TCRnodseek使用监督式机器学习方法支持向量机,整合了TCR特征及临床信息。在一项包括99名个体的研究中,TCRnodseek能够正确区分大多数良恶性肺结节,灵敏度为76%,特异性为91%,准确率为84%,AUC为0.8。相关临床结果于2022年10月发表在Signal Transduction and Targeted Therapy上。

Luo, H., Zu, R., Huang, Z. et al. Characteristics and significance of peripheral blood T-cell receptor repertoire features in patients with indeterminate lung nodules. Sig Transduct Target Ther 7, 348 (2022). https://doi.org/10.1038/s41392-022-01169-7

数据库

数据库

01

数据库

凭借长期丰富的分子诊断服务经验,海普洛斯建立了两大数据库:

1.HapKnow,收录140多万条肿瘤体细胞突变注释;

2.HapHeal,收录130多万条遗传性突变注释。

这两个数据库已整合在海普洛斯专有的报告注释系统HapReport中,实现了突变的自动化报告,以及对其临床意义的简明解释。