在生物医药研发领域,一款名为BioMedGPT-1.6B的轻量级科研版基础模型刚刚成为开源项目。
该模型具有16亿个参数,并且最大的特点是跨模态与知识融合。
模型的训练数据包含了跨模态的生物医药大数据,包括分子、文献、专利和知识库等,并且结合了分子结构、知识图谱和文献文本中的知识,以增强模型的泛化能力和可解释性。
在应用任务方面,BioMedGPT-1.6B展现出了通用能力,可以处理药物性质预测、自然语言处理以及跨模态等多种任务。
这个BioMedGPT-1.6B生物医药基础模型的团队来自清华智能产业研究院(AIR),由聂再清教授领导,他是清华大学国强教授和AIR首席研究员,主要研究领域是大数据与人工智能的创新以及在健康医疗领域的应用。
BioMedGPT-1.6B是他和团队正在开发的BioMedGPT的轻量版,后者是一个适用于生物医药领域研发的通用大模型。
BioMedGPT预计成为生物医药领域的基础大模型,类似于ChatGPT在自然语言处理领域的地位,它将具备在生物医学领域的知识理解、规律发现和灵感启示的能力。
该模型具备多个输入编码器,分别处理不同模态的输入,如分子、蛋白质和文献等。然后,它将不同模态的输入进行统一表示,从而学习到它们之间的关联知识。
BioMedGPT还首次将多模态知识引入模型构建,通过知识图谱的方式注入生物医药领域的知识,以增强模型的泛化能力、可解释性,并应对科研领域知识的快速更新。
团队已经完成了实验验证阶段,使用一个较小的端到端模型证明了这种思路的可行性。
预计未来几年内,该模型将在小范围内具备一定影响力,并有潜力成为行业通用大模型。
相关导航
暂无评论...