主页>最新消息>通知公告>正文

智慧医疗2019-07-04 10:52 来源:机器之心 作者:机器之心 浏览次数:124

药监局发布医疗AI产品审批要点,人工智能企业是否准备就绪?

摘要:这一次,药监局正式向AI企业发布了审批相关文件《深度学习辅助决策医疗器械软件审批要点》(以下简称《要点》),以文件的方式将审批相关的具体指标确立下来。

在药监局进行“人工智能类医疗器械注册申报公益培训”半年之后,关于审批要求相关的官方详细文件终于下达。半年前的会议上,药监局细致入微的分析了影响医疗人工智能器械审批的每一个过程,细化到对每个指标进行了详尽的讲解。

这一次,药监局正式向AI企业发布了审批相关文件《深度学习辅助决策医疗器械软件审批要点》(以下简称《要点》),以文件的方式将审批相关的具体指标确立下来。

相比上一次会议,药监局没有把过多的笔墨放在流程介绍上,整个文件直击人工智能软件的数据质量控制、算法泛化能力、临床使用风险、临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响六大要点。

具体而言,《要点》由适用范围、审批关注要点、软件更新、相关技术考量、注册申报资料说明五个部分组成,每一部分均对其中涉及的指标进行了非常细致的介绍。

需要注意的是,该文件不仅包含了辅助诊断的考量,还明确了非辅助决策软件、传统人工智能软件的要求以及第三方数据库、移动与云计算等考量。

结合《要点》内容,我们咨询了数位从事医疗人工智能的相关人士,尝试从政策之中挖掘2019年下半年“医疗+AI”的发展方向。

六大关键词点名AI产品原则

从审批的流程与关注点看,以基于风险的全生命周期管理为软件监管根本的直到原则早已确定,而为实施此选择所提及的适用范围、风险考量、需求分析、软件确认、临床实验等因素也已成定式,但其中的细节部分仍有所改良。

审评要点重点关注软件的数据质量控制、算法泛化能力、临床使用风险、临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响。

具体而言,要从《要点》之中提取了6个关键词,这6个关键词明确了人工智能企业在审批中所需注意的关键。

1、适用范围

准则的适用范围包括两类软件。

1. 深度学习辅助决策医疗器械软件:即基于医疗器械数据(医疗器械所生成的医学图像、医学数据,以下统称数据),使用深度学习技术进行辅助决策的软件。

2. 使用深度学习技术进行前处理(如成像质量改善、成像速度提升、图像重建)、流程优化(如一键操作)、常规后处理(如图像分割、数据测量)等非辅助决策的软件可参考使用本审评要点。

需要注意的是,这里不再把深度学习软件化分为可分为AI独立软件(本身即为医疗器械的AI软件)与AI软件组件(医疗器械内含的AI软件),而是以是否“辅助决策”对产品进行了划分,强调了产品的“辅助”功能;同时,这也明确表示非辅助决策软件也将以类似手段进入审批流程。

2、审批重点

审批提出了软件的数据质量控制、算法泛化能力、临床使用风险,临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响六个方面。

而这六个方面正是人工智能企业所实际面临的问题,数据质量关系着算法的成熟度;泛化能力则是指人工智能产品在不同人群中的普适能力;临床试验更是制约现阶段AI产品发展的关键……每一个问题都卡住了一批AI企业。

那么,在要点中重申这些监管要点之后,药监局会提出相应的解决方案对人工智能企业进行辅助吗?一切仍有待时间给出答案?

3、数据收集与处理

在审批之中,数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法设计质量。

在实际审批之中,数据在审批过程中非常重要。据了解,多家人工智能企业在提交《创新医疗器械特别审批程序》时,被审批机构以“缺少训练集、调优集、测试集中主要数据来源机构”;“缺少主要采集数据的分布情况”;“缺少不同设备和来源机构的测试数据”;“缺少数据标注质量控制中人员资历、数量的要求”;“缺少基于一定样本量真实数据的用户测试”等理由驳回。

对于上述问题,《要点》中认为,采集设备质控应当明确采集设备的兼容性要求和采集要求。兼容性要求应当基于数据生成方式(直接生成、间接生成)提供采集设备兼容性列表或技术要求,明确采集设备的制造商、型号规格、性能指标等要求,若对采集设备无具体要求应当提供相应支持资料。

采集要求应当明确采集设备的采集方式(如常规成像、增强成像)、采集协议(如MRI成像序列)、采集参数(如CT加载电压、加载电流、加载时间、层厚)、采集精度(如分辨率、采样率)等要求。

若使用现有历史数据,应当明确采集设备要求、数据采集质量评估要求(如人员、方法、指标、通过准则)。同时,采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型(静态、动态)、规则、程度、方法。

数据预处理、数据标注、数据集构建三个方面文件亦给出了明确的要求,但要求相对简单,企业只需按照要求的模式执行即可,这里不作赘述。

4、算法设计

除了常规命名方面的要求外,《要点》提到了算法训练与网络安全防护问题。

其中,算法训练需要基于训练集、调优集进行训练和调优,应当明确评估指标、训练方法、训练目标、调优方法、训练数据量-评估指标曲线等要求。

评估指标建议根据临床需求进行选择,如敏感性、特异性等。训练方法包括但不限于留出法和交叉验证法。训练目标应当满足临床要求,提供ROC曲线等证据予以证实。调优方法应当明确算法优化策略和实现方法。训练数据量-评估指标曲线应当能够证实算法训练的充分性和有效性。

而在网络安全防护方面,应当结合软件的预期用途、使用场景和核心功能,基于保密性、完整性、可得性等网络安全特性,确定软件网络安全能力建设要求,以应对网络攻击和数据窃取等网络威胁。相关要求详见网络安全指导原则。

类软件常见网络威胁包括但不限于框架漏洞攻击、数据污染,其中框架漏洞攻击是指利用算法所用现成框架本身漏洞进行网络攻击,数据污染是指通过污染输入数据进行网络攻击。

5、以临床评价为主的软件确认方式

软件确认是本次《要点》中的重点,文件中明确表示,企业应根据软件指导原则要求,提交基于临床试验的临床评价资料,即提交申报产品的临床试验资料,或者与申报产品核心算法具有实质等同性的同品种产品或同类软件功能的临床试验资料。

而对于临床试验,《要点》建议优先选择同品种产品或临床参考标准(即临床金标准)进行非劣效对照设计,若无同品种产品且难以获取临床参考标准(如违背伦理学要求)可选择替代方法,如选择用户结合软件联合决策与用户单独决策进行优效对照设计。

非劣效界值或优效界值的确定应当有充分的临床依据。此外考虑到用户的差异性,可选择多阅片者多病例(MRMC)试验设计。

《要点》建议企业应结合适用人群、病变等层面选择观察指标,原则上选择敏感性、特异性、ROC/AUC作为主要观察指标,亦可在此基础上根据软件特点选择敏感性/特异性衍生指标、ROC/AUC衍生指标、组内相关系数、Kappa系数、时间效率、数据有效使用率等指标作为观察指标。

入排标准应当基于目标疾病流行病学特征,保证阳性样本和阴性样本选取的合理性和充分性。而在实际之中,大部分企业倾向于选择敏感性、特异性、ROC/AUC作为主要观察指标。


病理影像的识别需要用AUC作为观察指标,图片来源于论文《Pathologist-level Interpretable Whole-slide Cancer Diagnosis with Deep Learning》

对于临床试验的结果,《要点》建议由第三方独立评价,且实施机构应当具备代表性和广泛性,不同于训练数据主要来源机构,地域分布尽可能广泛,机构数量尽可能多,以确认算法泛化能力。


例如,预期以提高辅助诊断时间效率为首要目标的某软件,无同品种产品且难以获取临床参考标准,其临床试验设计可选择用户结合软件联合决策与用户单独决策进行交叉对照设计,以敏感性、特异性、时间效率作为主要观察指标,其中敏感性、特异性可为非劣性对照,时间效率指标应当为优效对照。

事实上,国内已经有诸多企业尝试以多中心试验证实人工智能产品在真实世界的有效性。数坤科技在今天5月30日便发布了其AI与金标准对照多中心结果,值得其他企业借鉴。

最后,《要点》指出,临床评价采用基于现有历史数据的回顾性研究即可,没有提到前瞻性研究,据相关人士透露,现有AI产品的临床评价中,还未有案例通过前瞻性研究。

6、注册申报资料说明

《要点》中提到,申报的软件名称需符合独立软件通用名称命名规范要求,体现处理对象(如CT图像、眼底照片)、目标疾病(含病变、疾病属性)、临床用途(如辅助筛查、辅助识别)等特征词。

辅助决策独立软件适用范围应当明确预期用途、使用场景和核心功能,包括但不限于处理对象、目标疾病、临床用途、适用人群、目标用户、使用场所、采集设备要求、临床使用限制。

企业必须提供:一、软件描述文档核心算法部分应当结合本审评要点提供相应算法研究资料;二、包括数据来源合规性声明;三、算法性能影响因素分析资料以及各类测试场景下算法性能评估结果比较分析资料。

这部分内容相对简单,但据了解,仍有相关企业因为“产品与实际用途不符”等原因被审批方驳回。

除了上述6个关键点外,《要点》也提及了第三方数据库、测评数据库、云端部署等要点,但与过去政策无大致变化,对于说明书,按照《医疗器械说明书和标签管理规定》准则执行。

对于非辅助决策软件、传统人工智能软件的要求以及第三方数据库、移动与云计算。《要点》提出提出了“前处理软件功能原则上应当开展算法性能评估、临床评价;流程优化软件功能开展算法性能评估即可,无需开展临床评价;常规后处理软件功能原则上开展算法性能评估即可,全新功能应当开展临床评价”的评价要求。

良药还是安慰剂?相关人士见解不一

在政府发布文件之后,对于政策本身,大部分企业表示,相对于过去的政策,该政策与以往政策的差异性不大,更多的是在一些细节方面,《要点》提出了更为细致的规划。事实上,企业大都按部就班地按照政策执行着审批程序。

值得一提的是,有不愿意透露名字的企业表示他们也在尝试以前瞻性实验的方式进行临床评价,以超过标准要求的方式获得认可,但前景并不明朗。


部分企业正努力在审批之中寻求创新对于政策本身,长期从事医疗政策分析的张京雷则提出了不同的看法。他认为:这一政策细致描述了人工智能审批过程中的细节,起到了规范和明确的作用,但并不代表三类器械证将很快下达下来。反之,这可能暗示政府将对人工智能医疗产品加以更为严格的监管。


但无论如何,人工智能作为“辅助”诊断的角色已经敲定,那么在这一定义下,相关企业究竟应该把脚步放在何方?我们拭目以待!