5月19日,国际学术期刊《核酸研究》(Nucleic acids research)以“突破性研究论文(Breakthrough Article)”形式在线发表了清华大学汪小我课题组题为“基于深度生成式模型的大肠杆菌合成启动子设计“ (Synthetic promoter design in Escherichia coli based on a deep generative network) 的研究论文。该项研究首次用人工智能方法设计产生全新的基因启动子,为生物调控元件的设计和优化提供了崭新的手段。
基因调控元件作为搭建合成生物系统的基石,在代谢工程、基因治疗等领域有广泛用途。工程生物系统的构建需要大量具有优良性能的调控元件作为支撑,以适配不同底盘细胞和工作环境的需求。过去,人工元件的获取主要通过对自然元件的简单改造,例如通过对天然序列的随机突变、功能片段拼接组合等方法,结合定向进化等实验来筛选获得新的元器件。这些方法一方面成功率低,另一方面通常只能获得与天然序列非常相似的元件,难以发现全新的调控元件。以100碱基长度的序列为例,其潜在的序列组合达到了4100种可能, 但天然的元件仅占其中很小一部分,潜在的序列空间远超目前实验文库的筛选能力。
随着人工智能和大数据时代的到来,深度学习技术在复杂对象的特征表征、多模态融合、样本自动生成等问题中表现出独特的优势,为生物分子的设计提供了新的可能。该研究将人工智能技术应用于构建全新的基因调控元件,从自动化设计的角度,利用深度学习技术并融合生物先验知识来建立调控元件的生成模型。通过在计算机中的算法寻优部分替代生物实验上的随机搜索,可以大大提高实验的成功率。课题组在大肠杆菌中成功实现了全新基因启动子的设计与生成。该方法可以产生大量全新的启动子,经过迭代优化后实验验证成功率已超过 70%。这些由人工智能方法设计的全新元件具备了天然元件关键特征的统计特性,并同时具有一些非天然典型的序列模体,在整体序列排布上可以做到与天然启动子很低的相似性,降低了与天然基因组的同源重组风险。同时,优化后的人工元件可以具备比天然序列更高的转录活性。理论上,该方法可以产生数量远远超过天然启动子的全新元件,极大地丰富了可用于工程生物学研究的调控元件库。
该研究从实践上证明了利用人工智能方法创造全新生物调控元件的可行性,对推动工程生物系统更加高效、安全、可控的智能化设计与构建具有重要意义。人工智能技术与工程生物技术的交叉,未来将可能对促进代谢工程、分子育种、基因治疗等领域的发展产生深远影响。
汪小我现为清华大学自动化系长聘副教授,主要研究方向为模式识别与机器学习、生物组学大数据分析、人工合成生物系统的设计与控制。目前担任中国生物工程学会理事、青年工作委员会主任委员。该项研究得到了国家自然科学基金创新研究群体项目的支持。
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa325/5837049