清华AIR孵化，前阿里首席科学家“坐镇”，「水木分子」开源百亿参数生物医药大模型｜早期项目

文｜胡香赟

(资料图片仅供参考)

编辑｜海若镜

“大模型最大的优势在于融会贯通。药物开发立项需要的数据来自多个方面，依托大模型融会贯通的能力，快速调用各种优化的小算法、工具，将很大程度上减少人力成本、提高效率。”在谈起近日开源的生物医药大模型BioMedGPT-10B时，清华AIR首席研究员、水木分子首席科学家聂再清教授对36氪表示。

水木分子由清华大学智能产业研究院（AIR）孵化，专注于开发生物医药行业基础大模型及新一代对话式生物医药研发助手，已于近期完成千万级种子轮融资。首席科学家聂再清同时担任着清华大学国强教授、AIR首席研究员，在此之前，他更为人熟知的职业标签是阿里达摩院“大牛”、天猫精灵首席科学家。

探索大数据与AI在医疗健康领域的应用，是这样一位产业界“老兵”在2020年年底重返清华后的主要工作之一。他带领团队在生物医药大数据领域开展了系列探索，通过大模型将复杂多模态生物医药数据、知识进行统一表示学习，提升药物研发任务效率。

随着ChatGPT的爆火，这项彼时尚有些“默默无闻”的工作也得到越来越多的关注。据36氪不完全统计，今年以来公开亮相的医疗大模型已接近20个。但不同于这些更偏向影像、文本处理等医疗场景的大模型，水木分子选择从药物研发角度入手。聂再清表示：“做药物研发确实比医疗场景更复杂，要处理的模态更多。但从实用性角度而言，大模型直接拿给科学家做AI for Science的使用场景更明确；另一方面，药物研发与专家交互验证的环节更多，不像诊疗那样直接面对患者，在安全性方面有更好的保证。”

BioMedGPT就是在这一思路下诞生的。在生命科学领域，分子序列其实也可以被视为一种精密的“编码语言”。从这个角度来讲，大模型具备处理生命科学微观数据的可能性。水木分子的多模态语义理解框架BioMedGPT就是这样一个具备多个输入编码的模型，通过处理论文文本等自然语言、蛋白质生物编码语言，以及化学分子语言等不同模态的输入来学习各模态之间的关联知识，由此构成大模型“融会贯通”的前提，进而依据具体指令生成问题答案、乃至新的分子与蛋白。

图源：水木分子

“相较于传统的AI制药模式，大模型多了一个将自然语言和生物编码语言对齐的元素，”聂再清解释称：“每一个蛋白、小分子或疾病其实都是一个知识点，相互之间存在一定联系，大模型强过人的特质就在于寻找海量知识点之间的联系，药物研发专家的直觉和经验通过自然语言提问高效融合大模型融汇贯通的知识，可以大幅提升药物研发从立项到上市各个环节的效率。”

今年4月，水木分子首先开源了轻量级科研版基础模型BioMedGPT-1.6B，参数为16亿，能够实现跨模态和知识融合。在此基础上，本次发布的BioMedGPT-10B是一款参数达百亿的可商用、多模态生物医药大模型，能够支持跨模态自然语言和分子语言的交互式问答，可用于加速新药立项评估、药物设计及优化、临床试验设计等药物研发环节，现已在多个生物医药问答基准数据集上实现SOTA，在专业领域的问答能力比肩人类专家。

聂再清介绍，相较于4月开源的科研版本，BioMedGPT-10B除了在自然语言方面的能力有进一步提升之外，还实现了蛋白质大分子和文本语言的对齐。“现在基于蛋白质大分子也可以做很多对话，比如描述一个蛋白质大分子的功能等等。”

谈及当前行业已有针对某一分子或蛋白的专用小模型，是否还有必要开发生物医药领域的通用大模型这一问题时，聂再清表示，小模型或针对单独模态的模型“更多只是对一个生物编码语言的理解”。但在实际的应用中，由于人类现有知识中存在大量通过自然语言记录的内容，因此需要将这些分子的自身编码模型与之对齐，从而更好应用于药物研究上。

对于外界较为关心的数据质量问题，聂再清坦言基于当前生物医学领域已发表的论文、专利、数据集等公有数据素材，“可做的事情就已经太多了”，研究团队更需要做的其实是高质量数据集的构建。目前，水木分子团队已招募相关专业背景人员，对数据集建构进行精细打磨。

对外合作模式上，水木分子当前主要采取私有化部署的方式，聂再清坦言，外界感知的今年医疗行业整体立项数目和订单量减少对水木分子影响不大，“我们尚处在起步阶段，公司现有客户非常专业，希望能先把这部分需求做好，为客户带来真正的价值。”