谷歌发布新一代医疗AI模型MedGemma 1.5,解码CT、MRI影像准确率大幅提升

前沿资讯 1768383662更新

0

【导读】谷歌正式发布新一代开源医疗AI模型MedGemma 1.5 4B,同时推出专为医疗场景设计的MedASR语音识别模型。此次更新大幅提升了医学影像分析能力,首次支持CT、MRI等三维影像处理。这些模型现已通过Hugging Face和Google Cloud Vertex AI免费开放。


MedGemma系列模型自发布以来,已获得数百万次下载,在此基础上,谷歌推出MedGemma 1.5版本,针对医学影像支持进行了重大升级。

MedGemma 1.5 4B在多个关键领域实现突破。高维度医学影像支持方面,首次能够处理CT、MRI及全切片组织病理学图像等三维数据,开发者可将多个切片连同任务描述一起输入进行分析。纵向医学影像分析方面,能够对胸部X光时间序列进行回顾性分析,追踪病情变化。解剖结构定位方面,可精确定位胸部X光中的解剖特征位置。医学文档理解方面,能从实验室报告中提取结构化数据。

性能基准测试显示显著提升:疾病相关CT分类绝对准确率提升3个百分点(61%对58%),MRI分类提升14个百分点(65%对51%)。胸部X光解剖定位交并比提升35%(38%对3%),纵向分析宏观准确率提升5个百分点(66%对61%)。实验室报告数据提取检索宏观F1分数提升18个百分点(78%对60%)。这是首个能够处理高维度医学数据的开源多模态大语言模型,同时保留处理通用二维数据和文本的能力。

除MedGemma 1.5外,谷歌还发布MedASR医疗语音识别模型,基于Conformer架构开发,参数规模1.05亿,经5000小时医学语音语料预训练。在与Whisper large-v3对比中,MedASR胸部X光病历转写词错误率仅5.2% ,错误率降低58% ;多专业领域转写错误率降低82% 。MedASR可与MedGemma联动,实现"语音输入—AI分析—文本输出"的一体化应用。

所有模型,包括MedGemma 1.5系列、MedASR以及HAI-DEF项目下的其他模型(如MedSigLIP图像编码器),能够免费用于研究和商业用途,可通过Hugging Face或Google Cloud Vertex AI获取。

谷歌重要提示:模型需经适当验证和调整后方可用于实际医疗场景,不应直接用于临床诊断。


参考资料:https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/