2月20日,华大生命科学研究院在《GigaScience》及《GigaByte》期刊,以专题形式发布了时空组学算法工具系列成果。新工具采用先进的统计技术和算法,可对高维度和复杂结构的时空组学数据进行有效地处理,包括数据生成,去噪、批次效应检测和下游分析等,在性能上对原有工具进行了优化,在流程上针对高分辨率数据分析和解读过程进行了提升,为研究人员提供更准确、全面和可靠的分析结果,助力其深入理解生物系统结构和功能,驱动时空组学研究迈向新高度。
时空组学作为近年来备受瞩目的技术,能够揭示细胞内基因表达的空间分布及变化,帮助研究人员更好地理解细胞和组织的功能及相互关系,被广泛应用于肿瘤研究、免疫研究、发育生物学、神经科学、病理研究等方向。
然而,过往研究中使用的生物学规则或计算技术的方法,由于仅关注基因表达水平而忽视了空间信息,传统的聚类和差异表达分析方法也无法充分考虑数据的复杂性和细胞间的相互作用。因此,亟需更加高效、精确、综合的方法以充分挖掘时空组学数据价值,提升时空组学数据分析能力。
为了应对上述挑战,华大生命科学研究院时空组学算法团队开发了多种时空组学分析算法工具。首批发表在《GigaScience》及《GigaByte》上的算法工具包括:高效、准确的空间转录组数据分析工作全流程(SAW)、提高信噪比和数据质量的工具(EAGS)、去批次效应工具(BatchEval)、提高细胞聚类准确性的工具(SGAE)、关联细胞膜/壁染色图像与空间基因表达图的工具(STCellbin),以及基于基因表达和空间坐标,可更好地对细胞进行聚类的变邻域搜索(VNS)方法。
全新的时空算法系列工具,可有效解决时空组学研究中的数据处理和预处理困难、细胞类型和空间位置的精确定位、噪音和批次效应的处理以及下游分析的问题,进一步提升研究人员对时空组学数据的分析能力,也使得分析结果更准确、更全面、更可靠,加速科研成果产出,推动时空组学领域各项研究进阶发展。
“这批时空算法工具已经通过了实验验证,具有广泛应用性。除了在华大高分辨率、大视场的Stereo-seq数据上可展现出优秀的性能,新工具还能兼容大部分目前常见的空间组学分析平台数据。”华大生命科学研究院院长徐讯表示。
“Stereo-seq纳米级分辨率和厘米级全景视场的优势带来了海量的数据,如何高效、精准的处理这些数据是一个不小的挑战。”华大生命科学研究院生物信息领域首席科学家黎宇翔表示,“全新开发的SAW囊括了空间定位、序列比对、表达矩阵运算等时空组学核心分析流程,通过算法的深度优化和企业级的软件工程,在保证分析精度的同时可以大幅提升时空组学数据的处理效率。”
目前,本次发布的时空算法工具的脚本已在GitHub上开源,并得到广泛关注。
“我们把SAW应用在脑科学时空转录组测序数据分析研究中。这个项目之前面临的分析难点包括多样本以及多组学数据的整合,以及细胞类型的准确注释等。SAW的优势在于易于部署和上手,文档完善,运行速度快,并且软件更新迭代问题响应速度快。”南方医科大学基础医学院王倩雯博士表示。
“我们最近与腾讯AI Lab合作了一个基于深度学习对细胞类型精确注释的研究。在空间转录组学数据分析中,我们早前面临的主要挑战是数据的高度噪音和稀疏性。EAGS的使用有效地减少了数据噪声,为我们提供了更准确的细胞类型注释结果。”华大生命科学研究院智能所生物信息副研究员刘林表示,“这对我们来说是一个重要的进步,因为它直接影响了我们研究的准确性和可靠性。”
“我们在拟南芥时空发育研究中采用了STCellbin,它可以通过Stereo-seq的空间基因表达数据和细胞壁染色图,一站式生成可靠的植物单细胞空间基因表达图谱。”华大生命科学研究院数字化地球研究所专项科学家钱碧莲表示,“STCellbin提供了较好的细胞壁分割结果,同时也帮助我们节省了大量的时间和人力。”
未来,开发团队在完善现有的工具功能、提升工具的利用效率及准确性的同时,也将持续探索新技术和新方法的应用,提高工具性能及应用范围。此外,开发团队也将加强各方合作,积极探索推动算法解决重大生物学问题。更多时空组学算法工具将在后续依次发布,敬请期待。
专题页面链接:
GigaScience: https://academic.oup.com/gigascience/pages/spatial-omics-methods-and-applications
GigaByte: https://doi.org/10.46471/GIGABYTE_SERIES_0005
github链接:
EAGS: https://github.com/STOmics/EAGS
SGAE: https://github.com/STOmics/SGAE
SAW: https://github.com/STOmics/SAW
STCellbin: https://github.com/STOmics/STCellbin
BatchEval: https://github.com/STOmics/BatchEval
VNS: https://github.com/STOmics/VNS
关于华大生命科学研究院时空组学算法团队
华大生命科学研究院时空组学算法团队于2021年成立,由北京、深圳和塞尔维亚的算法人员组成。团队成员拥有深度学习、机器学习、生物信息学、数学等专业背景,为团队注入了多领域的技术实力。团队与时空组学用户保持紧密沟通,专注于解决时空组学分析中的难点和问题。团队的目标是提高时空组学数据的质量,降低数据分析的门槛,并推动时空组学分析算法社区的建立。团队致力于自动化和模块化的分析单元的开发,从而实现时空组学数据的快速分析,为时空组学研究者提供更便捷的数据分析平台,促进时空组学领域的发展。目前团队已建立时空组学分析流程工具3个,支持时空组学细胞分割,表达谱预处理以及下游分析任务。同时开发时空组学样本分析算法时空分析算法8个,建立时空组学多样本数据分析方案3个,已发表或接收时空组学工具算法文章7篇。华大生命科学研究院时空组学算法团队将继续努力,不断改进算法和工具,与时空组学用户紧密合作,共同推动时空组学研究的进阶发展。
【返 回】
上一篇:《环球》杂志:他们把中国探索写入国际标准
下一篇:邵雯雯:从兴趣出发,让科研与实际相结合