生物技术和信息技术的融合会带来什么?得益于大数据技术的发展,研发企业能够基于云计算平台处理复杂数据集并提取对应的数据信息加以应用,通过数据库的建立,可以降低研发成本,并预测未来的需求。
中国科学院天津工业生物技术研究所(以下简称天津工业生物所)是中国合成生物学领域的核心力量,由中国科学院和天津市人民政府共建,牵头组织承担了多项合成生物学、绿色生物制造等重点研发计划任务。
2019年,天津工业生物所成立生物设计中心平台实验室,并围绕生物计算设计,开始与亚马逊云科技共同探索生物技术和信息技术相结合(BT+IT)技术体系,以进一步推动合成生物学发展,以期能够为在健康、能源、农业和环境等领域的科学研究提供技术支撑。
“建设研究所的背景是在探索工业生物技术能不能作为一个手段或者一个途径,来解决全球目前经济社会发展面临的包括气候变化、环境、能源、资源短缺问题,促进社会经济可持续发展。” 中国科学院天津工业生物技术研究所副所长王钦宏表示,天津工业生物所的定位是围绕绿色低碳和经济社会可持续发展的重大需求,面向国民经济主战场,面向工业生物科技前沿,以工程生物学为指导,以生物设计为核心,开展工业生物技术战略性、前瞻性的基础与应用基础研究,集聚工业生物科技力量,创新生物产业关键核心技术与重大颠覆性技术,构建工业经济发展的生态路线,服务我国绿色生物经济与社会经济可持续的发展。
十多年来,天津工业生物所积极组建国家级创新平台,正在牵头建设由中国科学院与天津市政府共建的国家合成生物技术创新中心,筹建低碳合成工程生物学重点实验室。现已建有工业酶国家工程研究中心、中国合成生物产业知识产权运营中心、生物技术国家专业化众创空间等创新平台,近日又获国家卫健委批准建设京津冀食品营养健康与安全创新平台试点。
得益于这些创新平台建设,研究所正式成立十年来产出了一系列成果,尤其是最近几年随着积累的增加,成果产出的速度还在逐渐加快。不过从整个科技创新来说,解决底层技术的创新,仍是必须要面对的挑战。
“生物计算设计是合成生物学里面非常重要的一环,生物设计中心所负责的就是打造这整个设计平台所需要的底层技术。” 中国科学院天津工业生物技术研究所生物设计中心副主任廖小平表示,生物设计中心的定位是围绕着工程菌株的设计、构建、筛选、解析等多个环节,依托海量计算能力和人工智能技术,开发核心数据库、模型、算法和工具,发展生物元件设计、途径设计和细胞设计的新方法、新技术和新理论,设计优良性状的工业酶和细胞工厂,为工业生物技术发展带来更大的突破。由于生物设计中心刚成立不久、团队规模较小,IT开发人员数量不多,开发人员跟运维人员几乎是同一批人,而且需要兼顾针对不同需求的多个应用场景工具开发,生物设计中心从成立之初就推动开发模式从以前的基于本地服务器端的开发模式转向云原生的无服务器开发模式,以最大程度的减少服务器搭建维护的需求,实现业务代码到软件工具的快速迭代开发。值得一提的是,短短四年时间,生物设计中心在云上已经部署了超过20个云端应用。
“经过与亚马逊云科技的合作,我们打通了一系列不同云上应用开发方式,包括纯分析类、面向用户的工具/网站平台开发。最近几年已经围绕着工业生物设计里面的不同子领域做了相当多的工作,比如说序列设计、知识图谱、各种分析平台开发、数据库开发等。” 廖小平说。
例如,天津工业生物所生物设计中心团队联合亚马逊云科技团队在计算生物学国际期刊《Nucleic Acids Research》(《核酸研究》)上发表文章,发布了全球首个基于图数据库Amazon Neptune的大肠杆菌调控代谢关系知识图谱ERMer,首次提供了全局的代谢调控图谱,并通过可视化框架实现了丰富的搜索功能,如多步查询、最短路径查询等。ERMer采用专门为高度关联的复杂数据集的高效存储和查询设计图数据库架构,这打破了传统的低效数据检索方式,有效增强用户和图谱的人机交互,大大降低了使用门槛。
Amazon Neptune图数据库可以实现业务创新,解决异质数据问题,并利用AI能力实现进化:一方面可以将所有的复杂的高度关联的数据存储在图数据库里面,通过优化的图查询的语句来解决复杂的多步查询、最短路径检索等问题;另一方面,使用Amazon Neptune ML这种高度封装的图深度学习的框架服务,可以实现在低代码或者无代码情况下生成机器学习模型。Amazon Neptune ML可应用在不同预测任务当中,如针对蛋白功能的预测,针对调控关系的预测以及蛋白质相互作用关系的预测。
数据和数据之间的关系一样重要,并且这些关系的强度和权重对解决实际问题会有更多的帮助。Amazon Neptune图数据库可以存储这些信息,自动化地去做一些数据的关联,并且可以通过图算法解决路径、图的优化问题。
此外,模块化、标准化是合成生物学区别于传统生物学的一个明显的特征,通过标准化的生物元件和规范化的基因操作流程,生物铸造厂可以实现高通量自动化的菌种改造过程,从而摆脱过往劳动密集型的菌种开发模式,获得更高的技术能力。
针对菌种高通量改造的需求,天津工业生物所生物设计中心团队开发得到了第一个能够支持多种基因操作类型、改造任意基因组位点和多物种上进行精确、自动化和高通量编辑序列设计的云平台AutoESD。AutoESD 的开发采用了基于云端的无服务器架构,确保了高可靠性、稳健性和可扩展性,能够在几分钟内并行处理包含上千个编辑序列的设计任务。
具体来看,Amazon Serverless技术栈使得科研人员不必管理基础设施,可以集中精力于核心业务场景:开发人员利用Amazon Step Functions实现可视化的工作流管理,实现编辑序列设计工作流的串联,从而实现应用的快速构建和更新,同时快速查询处理异常任务;利用Amazon Lambda无服务计算将不同的引物设计、同源臂设计等编辑序列设计模块封装打包,满足了具体功能的模块化开发要求,并方便地对功能模块进行管理和共享;Amazon DynamoDB则提供毫秒级的动态资源响应性能,并自动扩展所需资源以应对增加的业务需求。
通过Amazon Serverless技术服务,天津工业生物所团队大大简化了运维需求,使得开发人员可以专注于业务代码和创新,与传统开发方式相比,开发时间缩短了75%,总体拥有成本降低50%。
写在最后
亚马逊云科技与天津工业生物所经过了四年多的合作,从最初的数据中心到现在的所有IT架构、开发理念、开发模式都以云原生的方式实现,合作分为三个阶段:2020年以及2020年之前,更多的是在学习基于云平台特别是无服务器进行开发的一些技术。
2021年进入快速发展期,陆续有十多个软件应用实现了云上部署,并尝试构建云原生现代化应用 ,并探索出适合生物设计中心业务模式的最佳实践。
2022年到现在,使用托管服务和创新服务进行云原生创新,加大对云计算优势的利用,如按需交付、快速扩展、弹性等,大大提升了开发效率、业务敏捷性、可扩展性和可用性,同时实现成本节约。
“生物设计中心从成立之初就开始开展机器学习和深度学习方面的研究工作,已取得了一些初步进展。去年底以来人工智能大语言模型的重大突破在国际上产生了广泛影响,也将对生物设计的研发方式方法产生颠覆性影响,因此中心也已开始布局大语言模型的相关工作,希望通过这一人工智能新技术的应用更快推动生物设计研发新范式的形成。” 中国科学院天津工业生物技术研究所 生物设计中心主任马红武表示,未来天津工业生物所团队在人工智能研究方面将与亚马逊云科技更密切合作,依托其提供的强大灵活的算力和定制的人工智能服务工具如SageMaker等,开展更多“BT+IT”的研发工作,进一步助力研究所在合成生物领域的科研探索。同时,也期望通过亚马逊云科技的全球科研领域辐射能力,提升天津工业生物所生物计算设计方面的国际影响力,为世界各国的合成生物学科研工作者提供优质服务。