诊断色素性皮肤病人机pk 专家也败下阵来
人工智能,曾是充满科幻色彩的高大上概念,如今正在各个领域落地生根,包括曾被很多人认为完全不可能的医疗领域。人工智能在皮肤病诊断领域的表现,更是让人刮目相看。2019年7月,发表在《Lancet Oncol》的一项研究甚至显示,人工智能诊断色素性皮肤病的能力,完全碾压该领域的专家。
皮肤癌的诊断,需要特定的专业知识,但许多地方缺乏此类专业人员。
与肉眼检查相比,无创皮肤镜检查,显著提高了早期准确诊黑色素瘤的水平。可是,皮肤镜检查对人员的专业素质要求较高,既需进行适当的培训,还需具有一定的经验。
另外,皮肤镜检查技术不仅皮肤科医生在广泛使用,缺乏专业皮肤病医生的地区,一般行医人员和其他健康护理人员也在使用,让这一技术的价值大打折扣。
常言说,十年树木,百年树人,培养大量专业皮肤科医生并非朝夕之功。怎么办呢?人工智能时代,或许机器能帮我们解决这一棘手的难题。
目前,机器学习领域飞速发展,特别是卷积神经网络的引入,人工智能诊断皮肤癌的能力日益精进。但是,人工智能是否能达到专家的水准,尚且未知。
发表在《Lancet Oncol》的该项研究,在所有良性和恶性色素性皮肤病变临床相关亚型诊断领域,将水平最高的机器学习算法与人类判读展开PK。
这项开放性基于网络的国际性诊断研究,从1511张图像的测试集中随机选取30批皮肤图像,人类判断者进行诊断。然后,人类判读者的诊断与机器学习实验室创建的139个算法得出的诊断进行比较,这些实验室曾参加了国际皮肤成像合作2018挑战,并事先接受了10015张图像的训练集的训练。
每个病变的真实情况属于以下预先确定的7种疾病之一:包括光化性角化病和伯恩病在内的上皮内癌;基底细胞癌;包括日光性雀斑、脂溢性角化病和扁平苔藓样角化病的良性角质细胞病变;皮肤纤维瘤;黑色素瘤;黑色素细胞痣;血管病变。
2个主要结局为所有人类判读者和前3种算法间,以及人类专家和前3种算法间,每批图像特异性诊断正确的数量的差异。
本研究中,2018年8月4日~9月30日,63个国家的511名人类判读者至少尝试了1次。283/511人(55.4%)为委员会认证的皮肤科医生,118人(23.1%)为皮肤科住院医师,83人(16.2%)为全科医师。
当与所有人类判读者进行比较时,所有机器学习算法正确诊断的次数平均多2.01次(95% CI,1.97~2.04;P<0.0001)(17.91(SD,3.42)vs 19.92(5.27))。
27名超过10年经验的人类专家平均正确判读18.78次(SD,3.15),前3种算法平均正确判读数25.43(1.95)次(平均差,6.65;95% CI,6.06~7.25;P<0.0001)。
对于从非训练集资源中选择的测试图像集,人类专家和前3种算法间的差异显著降低(人类表现不佳率为11.4%(95% CI,9.9~12.9),机器算法不佳率为3.6%(0.8~6.3);P<0.0001)。
因此,在色素性皮肤病变的诊断方面,最高水平的机器学习分类方法超过人类专家,应该让其在临床实践中发挥更重要的作用。但是,这些算法可能固有的局限性为,对于未曾学习过的图像,算法的表现降低,将来的研究应该着重解决这一问题。
该研究中,对于所有色素相关皮肤病变的诊断,不仅是黑色素瘤和痣,最先进的机器算法与普通医生以及皮肤科专家一决雌雄。
结果,不仅普通医生败下阵来,连皮肤科专家也自愧不如。
因此,缺乏专业皮肤科医生的僻远地区,不用再为缺人才发愁,可以买个机器人回去!
(选题审校:黄振城 编辑:贾朝娟)
(本文由北京大学第三医院药剂科翟所迪教授及其团队选题并审校,环球医学资讯编辑完成。)
参考资料:Lancet Oncol. 2019 Jul;20(7):938-947
http://www.ncbi.nlm.nih.gov/pubmed/31201137