云计算助力生命科学探索

2023年4月12日下午11:50 • 云计算

“人类DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。”

——诺贝尔生理学与医学奖获得者杜伯克

在基因这本“生命天书”里，藏着有关健康的秘密，人类通过基因探索生命科学的脚步从未停歇。然而，对生命科学的探究离不开对基因数据信息的存储、挖掘、管理。其数据信息的巨大规模、结构复杂、快速增长等特点，对信息系统的存储能力、计算能力、扩展能力都提出了非常高的要求，成为许多科研单位进一步取得成果所面临的难题。

生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。在序列对比的过程中将会产生巨量的数据，这对我们的存储系统带来了较大规模的挑战。

云计算助力生命科学探索

现在用于存储的硬盘容量每14个月会有一倍的增长，而基因序列的数据量则每5月左右会翻一番，例如：CeleraGenomics 和Sanger Centre 等主要基因研究机构都在管理数以万亿字节计的数据，其数据库信息量已经超过美国国会图书馆全部藏书，也超过了人类开展生物学研究以来积累的数据量。

序列拼接是将测序生成的reads短片段拼接起来，恢复出原始的序列。该问题是序列分析的基本任务，是基因组研究成功与失败的关键，拼接结果直接影响到序列标注，基因预测、基因组比较等后续任务。基因组序列的拼接也是基因组研究必须解决的首要难题。其困难不仅来自它的海量数据(以人类基因组序列为例，从数量为10兆级的片断恢复出长度为亿级的原始序列)，而且源于它含有高度重复的序列。

从计算机方面来讲，在拼接初期，会有大量的初始数据导入内存，然后对这些数据进行处理，因此，序列拼接对于计算机的内存量和计算能力都有非常大的需求。

生命科学类计算的核心内容是计算高性能、内存密集型和存储密集型，结合有孚云多年的经验，有孚云可为生命科学提供专业的方案如下：

计算能力

对于生命科学高性能计算需求而言，主要通过CPU综合性能提供必需的浮点运算和整点运算，CPU的浮点运算能力能够完成图像处理、科学计算等需要更高精度计算的任务。有孚云依据生命科学计算特点，推荐使用高主频Intel处理器，既能实现较高的计算处理性能，又在能效比、内存支持，以及CPU本身的架构上具有很大的优势。

内存配置

在生命科学计算中需要高效实现先期数据的载入，这对计算节点内存容量的要求越来越高，有孚云主机支持处理器与内存配比为1:8，充分满足了生命科学应用的实际需求。

存储性能

海量存储系统是生命科学计算的基础条件，有孚云提供高性能的基于三副本的SSD存储系统，10GB高速网络接口构建分布式存储资源，总体存储容量可达到EB级，同时还通过多副本机制，保障了数据的安全，从根本上解决了生物信息学的数据存储难题。

系统稳定

一套高稳定性的系统能够使生命科学应用更加方便快捷，同时也能够高效率的处理数据，保证业务不中断，有孚云平台持续提供作业调度、集群监控和数据管理能力，并结合有孚云高性能的服务器、灵活的弹性扩展特性和超高的存储性能，从各个方面保证了高性能运算平台的稳定性，降低了系统故障率，可为生命科学提供持续不间断的计算服务。

生命科学已经开始从根本上改变我们的生活。以创新技术助力科研发展是有孚网络一直以来的努力方向，有孚网络将不断发挥自身优势，为各领域科学研究提供强有力的IT支持，助力前沿科技成果的取得，加快创新成果转化应用，让科技造福社会。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：云计算助力生命科学探索 - Python技术站