近日,国内医疗大模型评测平台MedBench在官网更新了榜单。多个医疗AI产品及研究团队入榜,其中蚂蚁AI健康管家团队研发的蚂蚁医疗大模型以评测榜单97.5、自测榜单98.2的分数再度夺得“双料”冠军。
MedBench测评结果显示,蚂蚁医疗大模型在医学知识问答、医学语言生成、复杂医学推理三类单项中位居第一,在医学语言理解、医疗安全和伦理等方面也有突出表现。
MedBench评测榜单截图
MedBench自测榜单(受访者供图)
据了解,医疗行业是复杂度较高的领域,医疗大模型实时评估体系对大模型的应用落地尤为关键。蚂蚁医疗健康团队近期完成了基于强化学习的新一代医疗推理模型研发。AI引擎升级后,该垂直行业大模型不仅具备“医学思维”推理能力,还能完成“图、文、音视频等”多模态交互。基于此,蚂蚁医疗大模型添加了百亿级中英文图文、千亿级医疗文本语料以及千万级高质量医疗知识图谱进行专业知识训练,经过医患诊疗、药厂等真实场景问答的多任务微调,以及数百个专业医学团队、医生标注数据的强化学习。
以医学报告、药品、毛发等图像识别为例,目前该模型准确率超过90%。在安全性上,该大模型遵循安全隐私标准,从去年7月推出以来,面向行业开放了配套的“可信一体机+可信云”解决方案,保障数据隐私和算力效率,为医院、医疗机构提供可靠的本地部署与数据保护支持。