首页 · 会议 · 正文

火山科研云助力生命科学研究新范式

2023年11月1-3日,专注于冷冻电镜单颗粒分析技术的培训会议在南方科技大学召开,本次会议由火山引擎联合南方科技大学冷冻电镜中心,上海月新生科、英特尔共同举办,与会嘉宾们深入探讨了冷冻电镜技术在基础研究、临床科研和创新生物药开发中的广阔前景和应用实践。

会上,来自南方科技大学、复旦大学、中山大学、北京理工、湖南师范、清华大学等高校的多名冷冻电镜领域知名专家学者分享了精彩的学术报告。在上机培训过程中,培训老师通过耐心地讲解,为各位学员了解冷冻电镜、拓展研究思路及开展技术研发等提供了直接的指导和全新的思路。

火山引擎通用解决方案架构师高卿在会上以《火山科研云助力科研新范式》为主题发表演讲,展示了火山引擎近年来在生物信息计算和生命科学领域的研发成果。他表示:IT&BT正加速融合,即利用数字化来赋能基因研究、细胞工程、蛋白质结构预测等多个生物技术领域,实现创新、效能提升和工程化、产业化,而在数字化创新多种路径中,效能提升的最佳方式就是上云。

 

自主可控的生物医学大数据操作系统(Bio-OS)

火山引擎是字节跳动旗下的云服务平台, 在数字化创新过程中,对内提供抖音集团各应用的技术支撑,对外与千行百业共创第二增长曲线。在生命科学行业线,火山引擎推出科研、基因、医药和医疗体系4大细分领域解决方案,提供可靠的算力、存储、云原生操作系统等基础资源,以及研发、数据和人工智能中台能力。

火山引擎生命科学及医药行业总览

从生物信息基因计算领域观察,随着技术发展,现代全基因组测序价格已经打破摩尔定律快速降低,研究计算资源的不平等性愈发增强,同时,行业的海量数据存储、高效传输、数据要素分享已经成为重要挑战。

基于行业共性的问题,针对科研成果的可重复性差、数据标准不统一、缺乏行业标准化、数据难以汇聚、分析工程化能力较弱等痛点,火山引擎与合作伙伴一起,开发了一套基于国际标准的生物医学大数据操作系统—— Bio-OS,实现了标准规范、资源工具、开发环境和技术架构的统一。

Bio-OS能够帮助生物学家、数据科学家以及IT人员,快速的进行生信学构建相应的分析工作流,屏蔽了较为繁琐的环境构建、数据寻找和大数据计算任务调度的问题,极大简化了整个研究的过程,提升分析过程的效能。并且,火山引擎还将全球各类高价值数据集、领域化工作流和工具,进行归集和整理,供应用者查询、调用。同时,将Bio-OS平台的内核进行了开源,期望通过开放的形式,构建行业生态,实现“科研资源普惠化”。

 

三大核心能力助推AIfor Science

当前,人工智能驱动的科学研究(AI for Science,简称AI4S)技术成果,在生物医药、材料和物理领域发挥越来越重要的作用,也使得如何利用大模型赋能科研和产业化,成为行业变革的核心议题。

为此,火山引擎基于AI4S的基本逻辑,开始探索生命科学领域的“数字孪生”,期望能够通过将基因、蛋白质、细胞、表型、文献、病历和病理等各类多模态数据进行整合和训练,形成一个可进行仿真实验的数字生理人模型,帮助科研团队启发研究方向,提升疾病研究和制药研发效能。

而经过几年的项目实践,火山引擎在此领域逐步积累了三大核心能力:

 核心能力一:云原生调度体系

构建和利用全国的算力网络,利用云原生容器调度不同地域、异构的算力进行快速的任务交付。例如,Bio-OS云服务已经为农业育种、三代测序、AI蛋白质设计等多家企业和科研机构提供服务,为云上用户提供一整套的数据传输、数据存储,到二级分析、三级分析、数据交付的解决方案,助力基因组医学领域突破。

 核心能力二:基于大模型的工具链体系

利用大模型,训练某一领域内的高价值数据,并利用向量库减轻幻觉问题,帮助科研团队进行研究思路的探索,论文代码、数据集的生成和重现。例如,火山引擎助力某实验室,利用火山方舟大模型平台发掘论文检索和实验数据的创新科研思路,并利用知识库进行有效的专业性验证,助力水稻种植科研的跨领域知识的联系和探索。

 核心能力三:基于火山科研云平台不断拓展领域化生态应用

火山引擎与冷冻电镜领域的月新科技一起,针对Relion进行基于工作流的多个计算任务的工程化改造。此外,还协同英特尔,利用至强可扩展平台为硬件基座,对Alphafold2实施端到端的高能量优化,加速蛋白结构预测服务。

英特尔人工智能架构师杨威在会议现场展示了AlphaFold2基于火山引擎SPR云实例g3i上实际结果,并详细讲解了基于英特尔第四代至强处理器以及OpenVINO™工具套件的解决方案。英特尔与火山引擎深度合作,加速AI for Science生命科学计算的应用实践。

 

END

在冷冻电镜和结构生物学领域,火山引擎期望能够携手更多学术机构和技术厂商,利用数字化、云计算等基础能力,一同共创冷冻电镜云,帮助科研团队解决计算排队、数据存储等核心问题,最终实现推动整体领域的工程化、产业化能力的加速成熟和应用。