解密新冠肺炎CT影像AI筛查

09/03/2020 MM Cheng

南开大学，程明明推想科技有限公司，王少康

正如人工智能（AI）技术在许多行业越来越广泛地应用一样，基于医学影像的AI处理在很多医疗筛查和辅助诊断方面也发挥着越来越重要的作用。相信大多数人对该技术的长期发展都充满信心，但是现阶段医学影像AI技术到底能做什么，不能做什么，有哪些优势，需要在那些方面继续发力，依然存在着很多需要探索的地方。目前，我们的基于CT影像的AI筛查系统已经在抗疫一线累计检测4.5万病例,最新的基于肺部医学影像的肺结核检测论文也被IEEE CVPR 2020录用。当一切的工作又逐渐走向正常轨道的时候，我们感觉有必要对医学影像人工智能筛查，特别是新冠肺炎CT影像的AI筛查，做一个简单的总结和反思，重新整理下一步探索的思路，并与同行们多交流。欢迎大家留言并参与讨论https://mmcheng.net/covid-ai/，也欢迎转发。

1. 新冠病毒目前依然靠核酸检测确诊，AI对疫情控制有意义吗？

新型冠状病毒肺炎之所以能够如此快速的传播，最主要的原因就是病毒具有极强的隐蔽性，导致传播者很难在早期被识别和隔离。从广大易感人群中有效的分离出新冠肺炎患者需要突破3个主要困难：

快速检测：常规确诊手段经常受操作繁琐、耗时长、需要集中送检等限制，难以满足大量疑似、无症状感染者的排查和诊断需求。
高敏感度：核酸检测方法依然存在着敏感度低、假阴性高的问题，导致患者无法及时确诊并进入规范治疗程序，致使错失疫情控制时机。
操作门槛低：让更加广泛的医院，非资深专家也具有较高的诊断技能与诊断条件，是解决疫情快速增长期专业人员缺乏的重要手段。

针对上述三个主要困难，基于CT影像的AI筛查系统都具有明显的优势。从1月中旬疫情刚刚公布起，我们和推想科技深入合作，项目团队深入疫区，与同济、中南等医院合作，迅速部署基于CT影像的肺炎智能识别系统，并在系统运行过程中收集新冠肺炎数据，持续优化新冠肺炎智能识别与定位性能。目前，新冠AI系统已在包括疫区在内的国内40家医院应用部署，累计处理CT病例数据4.5万份（至3月3日），系统敏感度98.3%，特异度 81.7%。

2. AI筛查是什么，未来会取代医生吗？

在疫情监控、健康体检、疾病诊疗过程中，都会产生大量的医学数据。当我们积累了很多医疗数据及医生的诊断数据之后，就可以利用AI技术从这些数据中学习如何对病情进行各种定性及定量判断。如图1所示，AI系统可以通过一个病人的CT影像自动的判断病人是否是疑似新冠肺炎患者。肺炎发生的区域在哪，在各个肺部解刨结构中，肺炎区域占比是百分之多少？

既然AI技术这么神奇，未来会取代医生吗？答案是否定的。虽然AI技术在很多检测和识别领域的测试中，都展现出了战胜人类顶尖对手的潜力，但AI技术永远不会取代人类的工作。举一个简单的例子，20年前，大部分中国人都在务农。我很小的时候就问我爸爸，以后都用机器种地了，我们是不是就没事做了。这个担忧今天看来完全是杞人忧天。中国人不但没有因为农业的机械化导致大量人口失业，反而因此解放了很多低水平的重复劳动，转而让劳动者有精力去从事更加具有创造性，回报也更加丰厚的劳动中去。和其他所有技术一样，AI都只是一个工具，有了强大的工具，医生会关注更加有意义的分析和决策，进而做出更高效和更细致的判断。

3. 找医生不是更可靠吗？这么重要的事情，我为什么要用AI？

在包括新冠肺炎在内的很多疾病的诊断过程中，专业医生的判断水平往往高于AI系统，也几乎不大可能由于很低级的原因导致出现离谱的判断。疾病诊断这么重要的事情，为什么不用更加可靠的医生？我们能相信AI吗？

即使AI系统的性能对某些疾病的判断比不上专业的医生，AI系统依然有着非常重大的价值。之所以本次疫情中武汉的死亡率远高于其他地区，最重要的原因就是医疗资源的严重过载。在疫情快速爆发期，这种严重的过载几乎是不可避免的。其中，设备、场地等资源的供给都是相对比较容易快速增加的，但是专业医生的时间资源是难以短时间无限制增长的。一个病人动辄几十张，上百张高分辨率的CT影像数据，医生诊断过程非常耗时。在这个过程中，AI系统也可以通过快速定位可疑病灶区域，帮助医生快速诊断。一方面可以节约医生宝贵的时间，另一方面可以通过避免疲劳工作，提高医生判断的准确率。

在有些领域，AI的识别准确率已经可以远超高年资的专家。以我们对基于医学影像的肺结核筛查问题的研究（IEEE CVPR 2020）为例，高年资的专业医生的平均识别准确率为68.7%，而AI系统可以达到90%以上。善于思辨的人可能要问了，各种AI系统的Ground-truth都是用的人的标注。既然医生都很难准确判断，你们怎么判定自己系统的准确率？其实，在这个研究中，我们采用了大量“金标准”数据进行学习。对于肺结核来说，确诊金标准数据需要在对病理样本进行通常6周左右的培养和测试后才能获得。由于肺结核是仅次于艾滋病的常见传染病，且可以经由呼吸道传播，因此，这种病理培养只能在生物安全三级及以上的实验室进行。显然，在大规模人群的筛查中，不能每个人的样本都送去生物安全三级实验室进行数周的培养。而采用常规体检中心使用的医学影像数据，医生的判断准确率又难以尽如人意，这时候AI能够发挥的作用就非常大了。

4. 有了数据之后，是不是把图像识别技术拿过来用就可以了？

说起AI，很多人的印象中是收集很多数据，然后丢给AI自动学习，就可以得到识别模型了。对于新冠肺炎，是不是把相关数据丢给当前比较先进的图像识别系统自动学习，就能得到很好的自动识别系统了？

只能说理想很丰满，现实很骨感。程序员之间流传着一句话，“有多少人工，就有多少智能”。看似轻松的应用过程，背后都隐藏着大量辛苦的劳动。大家都知道大的人工智能企业都有一个特点，超高的薪水+更超长的工作时间。从大家的加班加点中，可以看出所谓的智能识别，有时候并不是那么“智能”。智能的背后，是大量的辛勤劳动和积累。

相对其他智能识别技术，医学影像的识别又有自己独特的难度。例如，不同医院的设备型号，数据分布都有很大的不同。早期我们踩过的一个坑就是系统识别过程中，关注了医院设备的一些缺陷，而不是真正的病灶位置。例如某家医院的设备总是在特定的位置有一小块数据缺失，而这家医院基本上很少有特定疾病的病人去。这种现象在自然图像中发生的概率小很多，也更容易被发现。在医学影像的AI分析系统中，有大量类似的bug需要排除。

在疫情期间，很多企业都报告了AI系统的识别准确率数据。我们不能说我们的98%高于某企业的95%，因为大家测试的标准和数据都不相同。直接比较识别率是没有意义的。但是，为了提高系统的鲁棒性和准确性，我们做了不少尝试。有一个有特色的尝试我觉得非常有必要和同行们分享。在早期没有足够区域标注的时候，我们也依赖分类模型对肺炎CT进行识别。后来发现，识别模型的鲁棒性和迁移能力明显不如检测和分割模型。我们的系统以检测和分割模型的判断为主，一方面是因为这样做的鲁棒性更好。另一方面，检测和分割区域也可以给医生更好的帮助，辅助医生做出最准确的判断，而不是给出一个患病概率百分之多少的黑盒判断。另一方面，我们也积极谨慎地利用分类模型的高敏感性（不漏掉阳性患者）。其中，最重要的就是利用分类模型训练过程中自动产生的类别激活图进行最可疑区域的定位，并辅助医生判断。我们发现，分类模型可以对分割和检测模型中漏掉的阳性样例做很好的互补性发现。

图 2：利用Class Activation Map在分类的同时进行定位，为医生提供更好的辅助。

5. 目前AI系统在疫情控制中都能发挥那些作用？

新冠肺炎AI系统具有两大重要功能：

快速筛查及预警提示：图1中展示的例子中，系统处理一个病人的几十张高清晰度CT数据仅需数十秒，如果简单的增加服务器数量，还可以将速度提升到数秒以内。这就为大量病例数据的快速筛查提供了支撑。

数字化精准辅助诊断与病程监控：在发现疑似病例后，系统会自动对可疑区域进行分割，并统计各个肺部解刨结构中肺炎区域占比的定量数据，为医生进一步决策提供重要的数据。细心的读者可能还注意到了图1的例子中，除了对当前日期的肺炎情况进行定性和定量的预测以外，系统也自动发现了几天之前该病人的CT影像中已经有少量的疑似肺炎区域。这种自动关联的能力，为动态、精确、量化的监控病程，提供了很好的支撑。

6. 医学影像识别，最亟待解决的问题是什么？

和很多AI技术一样，目前的各种所谓智能系统，在很大程度上还是一个黑盒子。在告诉用户结论的时候，缺乏让人信服的理由。虽然例如类别激活图（Class Activation Map）的技术能够在一定程度上对决策原因进行解释，但是离真正有用的解释还是相去甚远，需要进一步研究。

7. 医生这么忙，AI系统好上手吗？

这个真的不用太担心。人工智能企业中广大程序猿们为大家提供友好易用服务的能力是非常强大的。为了便于大家更好的理解，也体验一把做医生的感觉，我们共享了一个病例数据的系统界面 http://cth.demo.infervision.com:3000/viewer/1/

我不多说，您可以自己在没有说明书的情况下试试，看看能否很快上手。建议找个大一点的屏幕，用浏览器打开就行了。由于大量服务器用在抗疫一线，这个科普服务分配的资源有限，访问量过大可能造成加载时间过长。

总结

经过这次疫情，我们看到了国内各行各业同心协力积极抗疫的决心和勇气。携手共进的过程中，需要更多的分享：分享研究数据，分享研究经验，分享有用的工具，分享最新的发现。希望本文的分享能够让大家更加清晰的明白AI人是如何抗疫的，也希望我们的经验对同行们有益。