谷歌发布新一代医疗AI模型MedGemma 1.5，解码CT、MRI影像准确率大幅提升-AI前沿快讯-AI工具导航

谷歌发布新一代医疗AI模型MedGemma 1.5，解码CT、MRI影像准确率大幅提升

【导读】谷歌正式发布新一代开源医疗AI模型MedGemma 1.5 4B，同时推出专为医疗场景设计的MedASR语音识别模型。此次更新大幅提升了医学影像分析能力，首次支持CT、MRI等三维影像处理。这些模型现已通过Hugging Face和Google Cloud Vertex AI免费开放。

MedGemma系列模型自发布以来，已获得数百万次下载，在此基础上，谷歌推出MedGemma 1.5版本，针对医学影像支持进行了重大升级。

MedGemma 1.5 4B在多个关键领域实现突破。高维度医学影像支持方面，首次能够处理CT、MRI及全切片组织病理学图像等三维数据，开发者可将多个切片连同任务描述一起输入进行分析。纵向医学影像分析方面，能够对胸部X光时间序列进行回顾性分析，追踪病情变化。解剖结构定位方面，可精确定位胸部X光中的解剖特征位置。医学文档理解方面，能从实验室报告中提取结构化数据。

性能基准测试显示显著提升：疾病相关CT分类绝对准确率提升3个百分点（61%对58%），MRI分类提升14个百分点（65%对51%）。胸部X光解剖定位交并比提升35%（38%对3%），纵向分析宏观准确率提升5个百分点（66%对61%）。实验室报告数据提取检索宏观F1分数提升18个百分点（78%对60%）。这是首个能够处理高维度医学数据的开源多模态大语言模型，同时保留处理通用二维数据和文本的能力。

除MedGemma 1.5外，谷歌还发布MedASR医疗语音识别模型，基于Conformer架构开发，参数规模1.05亿，经5000小时医学语音语料预训练。在与Whisper large-v3对比中，MedASR胸部X光病历转写词错误率仅5.2% ，错误率降低58% ；多专业领域转写错误率降低82% 。MedASR可与MedGemma联动，实现"语音输入—AI分析—文本输出"的一体化应用。

所有模型，包括MedGemma 1.5系列、MedASR以及HAI-DEF项目下的其他模型（如MedSigLIP图像编码器），能够免费用于研究和商业用途，可通过Hugging Face或Google Cloud Vertex AI获取。

谷歌重要提示：模型需经适当验证和调整后方可用于实际医疗场景，不应直接用于临床诊断。

参考资料：https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/