热度 25
次人机大赛旨在通过与领域专家沟通交流,测试“视诊通”系统的实战能力,探讨人工智能在医学图像诊断方面的应用。本次大赛共邀请了来自友谊医院、协和医院、北医三院、北京肿瘤医院等数十家三甲医院的200位影像科的专业医生参赛。承办单位北京友谊医院为大赛提供了100套已有病理“金标准”的甲状腺结节超声图像,用于人机读片竞技。医生们通过手机回答问卷的形式,依据结节超声图像特点对100套超声图像做出良恶性判定,每答对一次得1分,全部答对得100分。“视诊通”和医生同台竞技,会务组按照同样的评分标准为“视诊通”打分。最后,按照正确率进行竞技排名。这是人工智能在医疗领域应用的一次创新性尝试,是即将到来的医疗AI时代的又一力证。
在我院的大力支持和专业指导下,计算中心“起宏图”人工智能研发团队历时两年,基于深度学习和图像处理算法推出了“视诊通—医学图像辅助诊断工具”,辅助医生进行医学图像诊断。这得益于北京友谊医院提供的丰富详实的甲状腺结节超声图像数据,以及医生专家团队在研发和临床应用方面的指导,目前,“视诊通”在B超影像内测诊断方面准确率达到76%,可与5年经验主治医师诊断水平相媲美。
-----------其实就在上个月,北京友谊医院就牵出自己一手喂大的 AI 孩子:一个甲状腺结节超声图像诊断 AI。它跟北京协和医院、北京大学第三医院、北京肿瘤医院、解放军总医院等 7 家三甲医院组团来战的影像医生战了一场。
「其实,我们很早就在微信群里看到过『AI 要代替医生』这种说法了。」北京友谊医院超声科副主任胡向东说。
这种代替威胁论的重灾区,尤其集中在图像分析领域,涉及超声科、放射科、病理科等科室。因为对 AI 而言,影像数据相对结构化,相比疾病的诊断和治疗,更容易些,技术也更成熟些。
「你可以说,AI 对医生造成了一定的威胁,但也可以说,AI 能对医生提供很大帮助。」胡向东辩证了一把。
她所在的超声科,其实很早之前就考虑过,想借助 AI 提高诊断率,也跟某家公司接触过,但没走下去。
两年前,因为医院放射科在跟北京市计算中心合作肺结节的 AI,而后者还有过结肠癌病理的 AI 基础,双方一拍即合,超声科就这样跟北京市计算中心开始了甲状腺结节超声图像诊断 AI 的合作。
「我们科的人,基本都参与进来了,大家态度还是很认真的,」胡向东说,大家并不是图新鲜玩一把的心态,「科里大多数人都参与了采图,最后选图的人也有三四个。」
对医院而言,养 AI 这个孩子的第一步,就是喂它图,也就是胡向东说的采图、选图。
超声图像本来存储在医院的工作站上,医生要先选择那些图像采集清晰的、病理结果明确的,拷出来,这个挑选过程,找到一份合适的病例,大概就需要四五分钟。
然后还需要医生手动把图像上的结节框选出来,这个框图选图的过程,也需要一两分钟。超声科就如此操作,喂了过千病例的超声图像和病理结果。而且,喂图的食材还要保证均衡和质量。
由于需要做穿刺的都是有恶性可疑点的结节,所以良性病例就需要医生额外补充给 AI 进行学习。而良性病例,需要同时满足穿刺结果为良、基因检测为阴性、随访时间超过半年 3 个条件。
至于恶性病例,则以穿刺或术后病理检测确诊为恶性做标准。以此,保证 AI 学习的每张片子,都是经过「金标准」检验的。
但是,食精脍细条件下,仔细养大的 AI ,其实还面临要丰富「食材」的挑战。
首先,这与超声本身的特质有关。超声不同于 CT 的客观成图,而是一种医生主观参与较多的检查方式,「面对同一个结节,可能我采集下来的图像,和你采集下来的图像,想表达的点是不太一样的。」胡向东解释,这首先就是一个可能影响到结果的因素。
此外,超声仪器品牌众多,不同公司、不同款型、甚至不是同一个的仪器,成像特征都是有差异的。在图像质量合格的前提下, AI 如何消化掉这些来源不同的「食材」,也是一个挑战。
「未来,AI 也许不需要人工框选结节,可以直接识别图像;也许,AI 甚至不需要人工采集图像,可以从头到尾全包。」胡向东说,目前只是起步阶段,未来发展空间还很大。
而在 AI 学习了数百张图后,科室进行内测,诊断准确率接近于 5 年经验主治医师的诊断水平。
这时,超声科主任钱林学提议,干脆搞个公开比赛,拉北京各家医院都来体验一下。于是,这就有了前面提到的人机对抗,而这也是国内首届人机读片竞赛。
比赛现场,左边两台计算机就是AI,相比于普通计算机,只是主机略大;右边是北京友谊医院超声科主任钱林学
AI 在读片比赛进程中的状态比赛现场(以上 3 张照片由北京友谊医院供图)
比赛一共 100 道题,根据图像做出「良性」或「恶性」的选择判断。
题目大多包含恶性可疑点,有一定难度。分上下半场,每半场限时 20 分钟。共 84 名医生现场参赛,他们除了按医院组成了 7 个团体,还有个人参赛的。
同时,线上还有近万名医生观赛,如果愿意,也可线上比赛。
在第一部分答题过程中,准确率排名前 25 名的医生,平均耗时 1000 秒左右,而 AI 耗时 191.669 秒,正确率为 68%,而初级医师正确率 60.8%,中级医师为 62.4%,高级医师 66%。
在第二部分答题中, AI 准确率达 76%,仅有 5 名医生得分超过了它。
最终,在团体赛比赛结果里, AI 以 73.0% 的综合正确率获胜,用时 514 秒,领先第二名航天中心医院 0.3%。
而在个人成绩里,冠军属于解放军总医院超声科的张明博医生,她已有 8 年的读片经验,综合正确率为 76%,平均用时 909 秒。 而 AI 则名列第 6。
对 AI 取得的这个结果,北京友谊医院超声科的医生们,还是比较满意的,最终 AI 的成绩是,敏感性为 83.3%,特异性为 57.5%。
其实,胡向东自己也参加了这个比赛,「我答得不好,」她笑着说,「感觉在现场比较容易受影响,比如第一部分结束后,会给出医生答错最高的五道题,我一看:啊?这一题不对吗?唉!这一题也没对!下半场的时候,我就想,还能按照这个思维来答吗?就受影响了。」
不过她也说,有的医生表现得就很好,上半场过后,反而下半场更适应了,总体成绩更好了。
其实,这就是人类的诊断率可能存在的波动,不如 AI 更稳定。
三. AI 对医生到底是不是威胁?
于是,问题又回到了 AI 是否威胁到了医生的上面。
「目前这个程度的 AI,已经让初中级医生感到很挫败了,」胡向东说,「搞完这个比赛,科里的同事有时都会说,是不是自己给自己挖了个坑,教会徒弟饿死师父,我们就快失业了?」
不过,胡向东和钱林学主任对此其实也是乐观的,「即使 AI 真有一天有能力代替医生了,也不见得就不好,医生可以去做属于人类的更高级的事情,而且这种事情还有很多。」
目前,他们还是更关注于 AI 的进一步优化,完善它的诊断技能,推向临床,服务于更多疑难病例和需要进一步学习的医院与医生。
他们的合作方,北京市计算中心的季红经理也认为:目前开发 AI ,目的还是希望辅助医师,比如提高部分医师的诊断能力,还不能取代医师的决策。毕竟在实际临床工作中,对疾病的诊断,需要更广阔的知识背景。
事实上,医疗界对 AI 是否能代替医生,态度总是更悲观一些。大家从技术角度出发,认为不论是耗时还是准确率,AI 都完胜,将取代大量医生,甚至,给出了取代 50% 这一比例。
而人工智能界对此倒是更乐观一些,他们更愿意从宏观角度出发:现在的 AI 再强,也是弱人工智能范畴的,医生的直觉、整体认知、法律和人文方面的统筹,是 AI 力所不及的。
GMT+8, 2024-11-5 14:45 , Processed in 0.032933 second(s), 18 queries , Gzip On.
Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc.