Google的AI诊断在临床受挫，同行：在实验室到达准确度只是第一步

时间:2020-04-30 18:32:24
浏览:214
来源:世界杯买球盘口网址app

克日，Google 揭晓的令人有些挫败感的研究结果，其 AI 诊断系统据称在实验室里能到达 “专家水准”，但在临床中护士甚至不推荐患者使用 AI 系统。此种落差，又把人们的视线拉回了 AI 的老问题，“人工智能” 为何到最后还不如人工？

Google 通过研究获得的履历是，把 “以人为中心” 的评估纳入模型。而事实上，早在 2018 年，斯坦福大学盘算机教授、Google 云首席科学家李飞飞就曾经在《纽约时报》揭晓过一篇文章，认为 “以人为本” 的 AI 才气使人工智能在未来发挥努力作用。

图 | 护士操作眼底照相机，给病人的视网膜照相（泉源：论文）

实验室情况下准确率凌驾 90%

泰国是 Google 选定的测试地域。该国卫生部希望在一年时间内完成对该国 60% 的糖尿病人举行糖尿病性视网膜病变（DR）筛查的任务，这意味着 200 名视网膜专家要对 450 万名患者举行诊断，如果不能及早完成筛查，DR 可能会导致失明。

泰国卫生部传统的方法是，护士在做检查时为患者的眼睛照相，通过电子邮件或者光盘送到其他地方的专家手里举行筛查，整个历程可能需要长达十周的时间。不外护士通常会通过开端判断，通知有显着的异常的患者转诊眼科医生。护士的开端判断一般是凭据轻度、中度、严重非增殖期和增殖期四个水平，以及糖尿病性黄斑水肿（DME）的情况，给患者复查建议或者要求转诊。

针对如此典型的 “问诊难” 问题，Google 希望通过自己的 AI 诊断系统解决。

Google 研究人员此前建了一个有 12.8 万幅图片的数据集，每张图片记载了 3-7 名眼科医生的评估效果，然后训练算法。该系统已经拿到了 CE 认证，但仍在等候 FDA 批准。这套系统通过扫描眼睛，使用图像分析来显示是否有血管堵塞或者渗漏，以此识别 DR 的症状，据称准确率凌驾 90%，Google Health 研究小组称之为“人类专家水平”，原则上，十分钟内就能出效果。

理想状态下，这套系统理论上能省去护士判断和分级的步骤，而且不用再把图像发给眼科专家。

Google Health 的用户体验研究员 Emma Beede 说：“我们必须在 AI 工具被广泛应用之前，相识它是如何在情况中为人们事情的，尤其是在医疗领域。”Beede 和她的同事在泰国的十一家诊所配备了他们的深度学习 AI 诊断系统，在几个月的时间里，他们视察护士的使用情况，并采访他们的使用体验。

图 | 部署深度学习系统之前和之后的眼病筛选历程（泉源：该论文）

算法拒绝了 21% 的图像

要想使图像更利于人或者机械举行分级，就必须要捕捉清晰的视网膜区域，也就是说相机的光线需要进入到眼睛的后部，这就需要患者的瞳孔放大，或者是在黑暗的情况中，或者使用瞳孔扩张滴液。但 Google 测试的十一家诊所中，差别诊所的检查情况大不相同，只有两家诊所有专门的暗黑拍片室，一些诊所没有扩张滴液，其他诊所都是在办公室举行拍摄，纵然相机上方有荧光灯，也无法拍出满足系统要求的图像。

凭据现有的 AI 法例，CE 和 FDA 的认证主要针瞄准确性而不是诊断或者治疗效果。为了保证系统的准确性，Google 研究人员对图像质量有严格的阈值，未满足要求的图像会被拒绝识别。这就造成算法拒绝了 21% 的图像。这种情况下，系统会通知护士，护士要见告患者转诊。其中一个诊所的护士说：“系统给出了确定的效果，但也有一定的局限性。有些图像比力模糊，我还能看清，可是系统看不清。”

一些护士认为，在现实条件下，可以通过拍摄两次图像合成一张完整的图像，他们希望系统能做到这一点。但系统做不到，因为参数设置要求每一张照片都必须是高质量的。这让护士感应沮丧，相机的闪光灯会造成病人的不适，病人最多接受两次照相，而且两次照相也会浪费时间。

图 | 一名护士试图通过拍摄同一只眼睛的两张照片，在差别的光线条件下合成一只眼睛的图像（泉源：论文）

另一个重要的问题是，整个系统的运转强烈依赖网络，图像要被上传到云端才气被评估。可是在此项研究中的诊所网络毗连时长出问题，往往需要 60-90 秒才气完成上传，严重减慢了筛查速度。如果网络断开两小时，一家诊所一天能检查的病人数会减半。一个诊所表现：“病人喜欢即时效果，但网速慢，病人诉苦。他们从早上 6 点就在这里等了两个小时，我们只能检查 10 个病人。”

这场测试反映了理想的 AI 系统，与资源有限的现实情况之间的尖锐矛盾。

最终，Google 似乎从中获得了许多履历：“把以人为中心的评估纳入深度学习模型评估，并通过临床网络生成的数据来提升模型性能，我们可以降低深度学习系统在现实条件下失败的风险，并增加对患者和临床医生有意义的革新的可能性。”Google Health 小组现在正在与当地诊所进一步完善事情流程，好比，训练护士在临界情况下自行判断；调整模型算法以处置惩罚不完美的图像。

Beede 说：“有一个护士自己筛选了 1000 个病人，有了这个工具，她是不行阻挡的。病人并不真的在意识别图像的是机械还是人类，他们更体贴自己接下来将会履历什么。”

“以人为本”

Google 结构医疗领域早在 2016 年就有所行动，IBM 也在同年建立了 Watson Health，与世界各地的不少知名医院举行了互助。在 2017 年 IBM 研究院还公布研究结果，称在视杯及视盘的检测上，机械能到达 95% 的准确度。但从公布效果到现在，该系统险些没有重大临床使用希望。

AI 医学影像是现在人工智能 + 医疗领域较为热门的行业之一，据 Global Market Insight 的数据，2024 年，AI 医学影像将到达 25 亿美元规模，占整个 AI 医疗市场规模的 25%。

“使用成像数据举行诊断方面，深度学习网络一直优于专业的医生。尤其是视网膜图像，相比于皮肤或者病理成像，它的变异性更小、数据更好，深度学习系统的体现也更好。这就是为什么 Google 和 IBM 等大公司都决议专注这一领域的原因，”Alex Zhavoronkov 博士说，他是 AI 药物发现公司 Insilico Medicine 的首席执行官，“但在临床中，系统的限制变得显着。现实中的数据质量和用于训练的质量相差很大，导致影响性能。”

他认为，这项研究只是强调了 AI 工具在大规模应用部署中所需要克服的一个小挑战。

加拿大滑铁卢大学的 Hamid Tizosh 也从事 AI 影像诊断事情，他认为 Google 的研究是至关重要的，这是一个实时的提醒：在实验室确保准确性只是第一步。

早在上个世纪，《黑客帝国》就为我们形貌了一小我私家机共生的未来。而现在人们讨论的“人机共生”，更多的是剥离了《黑客帝国》的反乌托邦主义色彩，人机各有所长，互为增补，人类投身于更具价值的事情，同时将大量重复的事情交给 AI。对于医疗行业而言，人与科技之间的关系或许也应如此。借用麻省理工学院 AgeLab 的 Bobbie Seppelt 博士评论自动驾驶的一个看法，“最理想的情境是人与科技配合找出最优的解决方案，而不是由任何一方单独完成。”

最后，有须要重新思考李飞飞提到的“以人为本的 AI”（human-centered A.I.），其中第一个目的是：AI 需要更深层地反映人类智能。人类的视觉感知很是富厚，它很庞大而且受周围情况应影响，可以自然地将我们对显而易见的目的的认识与对细微差异的敏感性平衡起来。相比之下，机械的感知仍然很是狭窄。

让 AI 对整小我私家类思想更敏感并非易事。这些解决方案可能需要来自逾越盘算机科学领域的洞察力，这意味着法式员将不得不学习如何与其他领域的专家举行更频繁的协作。这种互助意味着回归 AI 的泉源，而不是背离它。

参考：

https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376718#BibPLXBIB0030

https://www.technologyreview.com/2020/04/27/1000658/google-medical-ai-accurate-lab-real-life-clinic-covid-diabetes-retina-disease/

-End-