华大生命科学研究院

生物信息前沿算法及工具开发

发布日期:2020/10/15


一、新测序类型数据分析场景

时空组学全流程算法和工具集

基因和转录本表达具有两项非常重要和基本的特性——时间、空间,传统的分析方案对于不同时间状态下的个体取样,通过单细胞测序技术可以解析时间维度上细胞类型和基因表达状态的过程。但单细胞测序原理和实验过程是提取的组织需经分离成单细胞液滴后,必然会将组织中各细胞的空间位置丢失,这也就将各细胞之间位置的关联关系丧失,也同时使得我们非常难以得到不同区域,如脑部不同脑区中细胞的一个构成和表达的状态,以及各脑功能区中的差异表达情况。

时空组的概念迫在眉睫,随之孕育而生,深圳华大生命科学研究院的时空转录组技术运用原位、高通量测序、组学技术等多方面优势,奠定了时空组学技术领域研发的先行基础,生物智能技术研究所负责研发时空组学全流程所需配套的测序原位条形码定位算法、原位条形码矫正算法、空间影像配准算法、芯片质控算法、芯片管理系统、智能自动化分析系统、时空组多维可视化系统、时空转录组原位三维重建系统等配套的工具、软件。

 

stLFR(单管长片段)测序技术RNA组装算法和工具

获得高精度的变异检测信息,一直是基因测序技术的研究重点,也是遗传检测诊断的基础。stLFR(单管长片段)测序技术是近年新兴技术,基于高通量测序方法可以获得长片段基因信息,以更低的成本进行更高精度的全场转录本测序。

针对华大的stLFR测序技术,深圳华大生命科学研究院生物智能技术研究所实验团队,针对该技术难点将单样本上亿单位分组进行序列从头组装拼接,还原其原始分子状态下序列排布以呈现更精准的可变剪切,分型等分析结果,开发的RNA组装拼接算法亦可应用于stLFR amplicon场景。

 

二、海量大数据分析场景

千万级单细胞大数据分析算法和工具集

近几年,单细胞转录组测序技术的应用极大程度的拓宽了人们对生命科学领域认知的视野,让人们可以更深入的了解各物种组织内部的细胞形态和多样性构成及基因表达的具体情况。在单细胞数据分析方面,华大已开发出单细胞建库成本低、通量大的具有市场影响力的产品加上华大超高通量测序技术,数据量井喷式的爆发使得传统单细胞分析工具和算法捉襟见肘,难以应对单一批次大量数据分析的需求,以及相同硬件条件下分析通量不高的需求。

针对业界对单细胞数据处理能力的期待和未来单细胞数据增长的预估,深圳华大生命科学研究院生物智能技术研究所实验团队通过算法优化、硬件资源适配、硬件加速等方案,对传统分析流程和工具算法进行大范围彻底优化,使目前加速优化后的分析软件处理通量可达千万单细胞数量级,效率较传统方案及国外著名公司方案提升数倍,是具有行业核心竞争力的工具之一。

 

百万级大人群大数据分析算法和工具集

人类基因组项目(HGP)和千人基因组项目(1000 Genomes Project)的完成为精准医学和群体遗传学的发展奠定了良好的基础,随之各国纷纷开展了自己的国家基因组计划,包括英国和美国在内的诸多国家都将基因组的规模定位在百万人。海量的数据也给数据的分析带来了新的挑战,首先大规模数据的联合分析带来了计算性能的瓶颈,其次大数据也对传统的算法提出了新的要求。

 针对以上问题,生物智能技术研究所基于分布式并行框架Spark和新的大规模变异存取模型,系统性地解决大人群分析中的群体变异检测、样本和变异质控、频谱等统计、Phasing、关联分析和多基因预测等分析,从而整体加速了了大人群项目的进展。

 

万种比较基因组算法和工具集

随着千种植物(1KP)、万种鸟类(10KB)等项目的开展,很多物种的基因组得到测序和组装,比较基因组学的研究也成为这些项目的一个重要方向。但是比较基因组的分析中涉及的多基因组比对(MGA),以及后续的进化分析等的计算消耗都随着物种数目而平方级增加,从而开始限制了项目研究进展。目前最大的比较基因组分析项目还处于千种级别,现存的生物信息工具难以满足万种和以上数目物种的比较基因组分析的要求。

针对以上问题,生物智能技术研究所将深入研究目前多基因组比对、进化分析等算法,并结合高性能计算方法,从根本上去优化现在算法和性能,从而开发出能够适应万种物种规模的比较基因组学分析工具套件,支持未来比较基因组学的发展。

 

生物信息智能自动化计算创新平台开发项目

华大拥有超高通量测序技术,拥有国产自主可控的测序仪制造技术,依托深圳国家基因库超高通量测序平台年产数据量超过20P,是近年测序通量的2~4倍。

为配合高通量测序产出的数据,减少标准分析投入的人力资源,深圳华大生命科学研究院生物智能技术研究所实验团队开发了生物信息智能自动化计算分析平台,该分析平台目前已投入使用,年分析能力达到20P。该分析平台与测序仪打通,测序数据下机后自动完成标准化分析,保证了项目交付统一的分析标准,免人工干预减少了人力成本和错误操作,有日志记录增加回溯分析能力,集约的调度和管理计算存储资源提高了服务器资源利用率,是生命科学行业翘首以盼的生信自动化分析平台。

 

组学数据压缩算法和工具

测序数据的快速增长使得数据存储的成本大幅增加,一个长期项目的存储成本已经大于计算成本,由于基因测序数据存在高度的重复性,专门针对基因测序数据压缩的算法和工具也逐渐被提出,但是绝大部分工具无法在稳定性、压缩率、压缩性能这三者之间取得平衡。

针对以上问题,生物智能技术研究所结合不同类型测序数据的特点,开发了一款兼容reference-base和reference-free的高效基因数据压缩工具,针对广泛的数据集进行测试验证,达到稳定性、压缩效率和压缩性能三者平衡。

 

三、新型应用场景

低深度变异检测算法和工具

在现实基因测序应用中,成本是一个重要的因素,因此如何用更少的测序数据来达到几乎同等科研和产品目的是目前一个重要的探索方向。低深度全基因组测序在群体科研项目,物种育种等应用中均证明是一个具有前景的方向,在和传统的芯片测序相同成本下,并获得更好的效果。低深度变异检测算法是影响其效果的关键因素,一方面需要依赖成熟和精准的算法,另外一方面也依赖良好的reference panel。

生物智能技术研究所针对上述场景,基于传统芯片Imputation方法,针对低深度全基因组数据进行优化,更好的利用reference panel信息进行Imputation,并结合实际项目需求进行优化,开发了一套完整的低深度变异检测流程。


【返 回】

上一篇:微流控技术 下一篇:与华为共建基于ARM架构的WGS分析方案及生态

Baidu
map