上海人工智能研究院推出新版中国大规模医疗模型可信评估平台

所有版权归中国经济网所有。
中国经济网新媒体矩阵
网络广播视听节目许可证(0107190)(京ICP040090)
近日,上海人工智能研究院推出中国权威大型医学模型评估平台MedBench 4.0。这是中国首个大型医疗模型评估验证系统,针对垂直大模型、专用大模型和应用场景。业内专家表示,MedBench 4.0将为衡量医疗AI产品的性能和可靠性提供科学的标准,确保医疗AI产品的质量更好、行业良性竞争。 MedBench是大型中国医学模型的可靠评估平台,于2023年年中首次发布,目前据悉已更新至第四版。徐杰 上海人工智能研究院医学评价中心主任CE表示,升级包括三大技术范式:大规模语言模型、大规模多模态模型和智能代理。深度遵循国家《医疗行业人工智能应用场景参考指南》,覆盖60个完全自建的考核集,专业考核题总数超过70万道。关于大规模语言模型的评估,记者从上海人工智能研究院了解到,该平台围绕医学知识、语言理解、生成、复杂推理和安全伦理等问答维度构建评估集,并创新性地引入科学的指标体系,减少模型信息缺失和幻觉产生对评估结果的影响。用于评估大规模多模态模型、目标医学图像和实验室报告以及其他核心临床场景。该平台可覆盖目标检测、图像分类、多模态报告质量控制、图像序列理解、病程动态监测等10个细分任务,填补了中医药多模态评价领域的技术空白。智能代理评估平台聚焦解决执行失败问题,推动智能医疗代理从“会说话”向“会行动、会协作”进化。对于评估大型医疗模型的重要性,徐杰告诉记者,这次评估可以首先验证大型医疗模型的合规性,然后验证专业性,例如误诊、漏诊、错误用药处方等,最终使市场能够更好地培养高质量的大型医疗模型。记者发现,目前很多大型通用车型,如深搜、钱文等,可以分析体检报告、化验报告。那么大规模医疗模式的价值是什么?对此,徐杰表示,常规的通用型大机型可以处理日常的健康咨询。国产通用大头型的医疗能力经评估超过国外同类产品。然而,在需要专家判断的医疗场景中,比如要进行哪些检查、如何解读报告、开什么药物或草药等,大规模模型还需要整合大量的医疗数据、专家病历、临床经验等语料库。通过高效处理大量信息并提供循证参考资料,大规模医疗模型可以帮助医生提高诊疗水平,弥补基层医疗的不足,实现全民医疗保障。在除了推出权威评估平台外,上海人工智能研究院还联合专业医疗机构及相关企业推出医疗人工智能,包括小儿眼部疾病智能检测与精准干预系统、胃肠大器官多模态辅助诊疗模式等。应用。