人工智能医疗器械医疗器械临床试验伦理审查要点

2021-06-30

2019年7月3日，医疗器械技术审评中心发布《深度学习辅助决策医疗器械软件审评要点》，意味着三类人工智能医疗器械注册审评标准正式落地，产业发展的政策瓶颈已被打破。2019年7月17日成立人工智能医疗器械创新合作平台，以构建开放协同共享的人工智能医疗器械创新体系，形成服务于科学监管、科技创新、产品转化的人工智能医疗器械创新合作平台为目标愿景，将全力推动医学人工智能产品审批。人工智能医疗器械是指器械的工作流程优化、数据处理、辅助诊断等方面，采用以深度学习、神经网络为代表的数据驱动方式训练算法的新一代人工智能技术的医疗器械。

一、国内外人工智能医疗器械的概况

人工智能系统有比人类更强的观察力和洞察力，可快速处理海量医疗和病人信息，提供辅助建议，帮助决策和减少人为偏差，协助医生将有限精力集中于病人。人工智能系统可基于新信息、结果和操作不断学习，有助于医疗专业人员作出更加明智、及时的决策。随着逐渐落实分级诊疗和国产医疗器械的快速发展，医疗器械公司为保持其产品竞争优势以瓜分更多基层医疗市场的蛋糕，除重视硬件质量外，也注重设备智能化，特别是配套的筛查系统和辅助诊断。基层医疗机构缺乏优秀医生，对人工智能医疗器械需求大，将是人工智能浪潮的最大受益者和主战场。

1.1 人工智能医疗器械的研发模式

让医疗器械产品变得更加智能是趋势，可提高产品的竞争力。智能化、数字化医疗实现医疗设备的全生命周期管理是国际大公司的发展重点。在合作方式上，因为目前没有明确的收费项目，如肺结节筛查类产品主要以两种方式进入医院：一是以科研项目的方式同医院合作；二是同医疗器械厂商合作，以整体服务包的形式进入。

对于医疗人工智能公司来说，产品研发出来以后，与医疗器械公司的合作有两种好处，一方面可以通过科研合作的方式，验证自己产品的实际临床效果。另一方面，现在大多数医疗人工智能公司都在寻找合适的盈利模式。但由于医疗的严谨性，我国尚无针对人工智能产品的认证标准，以往公司常依据医疗器械的认证流程认证二类医疗器械或者三类医疗器械。在没有获得认证之前，很多人工智能公司通过与医疗器械公司的合作，将系统搭载在医疗器械上，医疗器械公司只需去省级食品药品监督管理局进行报备，不需要进行重新的认证，就可在市场上销售，所得的销售利润可以按照双方提前商量好的比例进行分成。

1.2 人工智能医疗器械的应用

2011年IBM的Watson开启人工智能医疗的商业发展，深度学习算法历经多次换代。2016年1月，IBM和美敦力合推糖尿病监测APP，借助数据分析结果，可提前3小时预测低血糖的发生，大大改善病人生活质量。IBM的Watson至今仍未获得美国食品药品监督管理局的认证，但其服务都是在法律允许的框架之内。

根据全球市场洞察力（Global Market Insight）的数据报告显示，人工智能医疗影像紧随人工智能药物研发成为第二大细分市场，占比25%，并将以超过40%的增速发展，预计2024年将达25亿美元规模。人工智能在医疗影像领域的应用主要包含，图像或检查的分类，器官、区域或标记点的定位，目标及病理的检测，组织结构的分割，病灶区的分割以及图像配准等，针对的疾病主要有肺结节、糖尿病性视网膜病变、脑卒中等，应用方向主要有疾病筛查、病灶勾画和脏器三维成像。对细分病种的增强覆盖和根据自身业务特点对新场景的探索是未来发展方向。

各公司正通过将人工智能医疗器械产品投入医院免费试用来积累大量临床数据，以此提高临床应用的精准度，为申报国家药品监督管理局认证提供可靠的数据基础，缩小临床结果与实验室结果之间的差异。这却给不熟悉人工智能医疗器械审查注意事项的伦理委员会带来极大挑战。

1.3 美国人工智能医疗器械审批现状

美国食品药品监督管理局的人工智能影像系统分为计算机辅助检测（computer-aided detection）和计算机辅助诊断（computer-assisted diagnostic），前者用于检测身体异常状况，后者评估疾病的存在与否，比如严重性、疾病分类或预测。为加快医疗人工智能审评审批进程，2017年7月，美国食品药品监督管理局发布数字健康创新行动计划，根据电子健康产品特征、临床应用前景、用户界面特性和商业化周期等，建立新型实效性强的监管方法。

美国食品药品监督管理局已批准多个人工智能医疗器械，审批远快于中国。如2018年2月审批了第一个针对中风的人工智能诊断决策支持产品（ContaCT）；同月审批了第一个针对儿童自闭症的人工智能诊断决策支持系统，Cognoa公司的一款深度学习应用；2018年4月批准了IDx公司首个自主式人工智能诊断设备IDx-DR的软件程序，可通过查看视网膜照片对糖尿病性视网膜病变进行自主诊断；2018年5月批准了新型人工智能工具OsteoDetect，用人工智能算法协助医生快速诊断腕骨骨折。在医学影像方面，美国食品药品监督管理局首次批准通用电气公司的低剂量CT肺癌筛查方案，可精准成像，发现早期的微小结节，通过自动标记难识别的肺结节，辅助医生快速、精准地进行筛查。

美国医疗人工智能行业已有不少产品上市，我国医疗人工智能行业也尽快需要拳头级产品在国际上参与竞争。据报道，2018年11月底国家药品监督管理局对创新特别审批申请的1 054项项目进行审批，同意了192项，含已获批上市的51项创新医疗器械，但都不是人工智能医疗器械。

二、人工智能医疗器械的研发现状

在机器学习与深度学习越来越风靡的高科技行业中，利用人工智能进行影像三维分割、病理图像分析处理、个性化精准医疗等方面的工作来辅助医生进行诊断与治疗方案拟定已日渐普及。

2.1 我国人工智能医疗器械分类

原国家食品药品监督管理总局发布的新版《医疗器械分类目录》已于2018年8月1日起施行。特意新增了与人工智能辅助诊断相对应的类别，即目录中的对医学影像与病理图像的分析与处理。我国人工智能定位于辅助诊断，协助医生而不可直接服务于病人。按照最新的分类规定，把医用软件按二类、三类医疗器械设置审批通道。若诊断软件通过其算法提供诊断建议，只能辅助诊断，不直接出具诊断结论，其相关产品按二类医疗器械管理。若诊断软件通过其算法可自动识别病变部位和提供明确的诊断提示，其风险级别相对较高，其相关产品按三类医疗器械管理。可见当前人工智能产品大多属于三类医疗器械。

美国批复的人工智能产品大都是走二类医疗器械的认证流程，通过跟传统临床决策支持系统做等同对比证明安全有效性。相比我国绝大部分人工智能医疗器械产品被定为三类医疗器械，大部分人工智能产品在美国都被定为二类医疗器械，我国对待人工智能医疗器械产品的审批态度更慎重，法规相对更严谨，对临床评价的路径控制更严格。

三类医疗器械的申报需有临床试验数据支撑，部分二类医疗器械可豁免临床试验，但诊断软件的申报可否豁免临床试验，国家药品监督管理局尚无具体规范。当前人工智能医疗器械企业中，仅武汉兰丁的全自动数字（远程）病例分析仪和EDDA科技公司研发的IQQA人工智能赋能平台获得国家药品监督管理局认证，其他企业都还处于免费提供试用的阶段。目前尚未有一款产品获得三类人工智能医疗器械证书。业内认为我国人工智能医疗器械获得注册证的困难之处在于：对产品的认识速度跟不上对审评的认识程度，对高风险产品的临床验证满足不了临床的实际需求。而这些问题的解决还有赖技术的突破和临床验证的积累。

2.2 企业应对策略

为适应国家政策，我国大部分人工智能医疗器械企业删除和增加诊断功能，同时按照二、三类医疗器械申报。当前一些企业已获二类人工智能医疗器械证书，不少人工智能企业都在积极进行三类医疗器械的申报。随着分类目录的出现，现阶段各家医疗人工智能公司在研发产品的同时理应加速国家药品监督管理局认证的过程，这样在市场化过程中才可以在相对平等的条件下和医疗器械公司、医疗机构达成合作。在具备盈利可能性的前提下，保护自己的品牌不成为医疗器械公司的附庸。

2.3 已进入注册申报阶段

根据医疗器械注册流程，要经过产品定型、检测、临床试验、注册申报、技术审评、行政审批这六步。检测报告和临床试验报告是注册申报的前提条件，通过之后国家药品监督管理局才会正式受理。目前已有90多家企业跟国家药品监督管理局就三类证书的申请进行沟通，具体包括数据集的整理、敏感性特异性指标的评估、安全性有效性的评估等方面。国家药品监督管理局2019年5月27日公布了《创新医疗器械特别审查申请审查结果公示》(2019年第6号)，深圳硅基智能科技有限公司申报的“糖尿病视网膜病变分析软件”产品已获批创新医疗器械，进入临床试验及审评快速绿色通道。国家药品监督管理局在创新产品的审批申报方面还开通申报的绿色通道等优惠政策。

中国食品药品检定研究院负责人工智能医疗器械产品的质量评价与研究工作。并非全部产品需临床试验后才能上市，源于真实世界的临床试验数据可用于临床前及临床的评价，前瞻性和回顾性的临床数据可用于临床评价。中国食品药品检定研究院规划的人工智能医疗器械检验体系有四个步骤：标准数据、体模测试、软件性能、模拟对抗，已建立起了彩色眼底图像和肺部CT影像两个数据库。数据库构建过程主要包括数据收集、图像标注、数据管理三个步骤。

三、人工智能医疗器械伦理审查的核心问题

人工智能医疗器械伦理审查的问题除人工智能和医疗器械各自问题外，也有人工智能与医疗器械叠加带来的问题。已有文献概述了医疗器械伦理审查的要点。人工智能应用于医疗领域的伦理问题，包括公平受益、失业、患者隐私、医疗安全、责任划分和监管等。其原因涉及未遵守基本伦理原则、技术缺陷、立法和监管缺失、隐含算法偏见、数据质量欠佳等。鉴于目前人工智能算法准确度和适应性是限制其临床应用的瓶颈，因此人工智能医疗器械伦理审查的核心问题包括难以准确评估风险、建立恰当类型数据库、确保数据安全、算法更新导致软件迭代等。

3.1 难以准确评估风险

人工智能医疗器械的使用与健康息息相关，风险评估尤为重要。临床使用风险应考虑数据质量控制、算法泛化能力的直接影响和算力所用计算资源（即运行环境）失效的间接影响。为使风险最小化，确保人工智能医疗器械的可靠性，需在使用过程中评估其风险。伦理审查中应注意其考量因素是否包括了临床使用中的假阳性、假阴性和进口软件的中外差异，以及风险管理活动相关的预期用途、使用场景、核心功能及措施、要求。

3.2 建立恰当类型数据库

数据是人工智能医疗器械的核心要素，将成为制约人工智能医疗器械发展的瓶颈。因此，数据库的建立是人工智能医疗器械审批的先行之举，2019年7月17日之前我国仅存在肺结节和眼底两类影像数据库，未来将建立肺CT、脑磁共振、冠状动脉CT血管造影等更多测试样本数据库，且明确测试数据库的类型包含检验数据库、真实世界数据。2018年9月以来，多达230家医院IBM Watson诊疗系统由于开不安全药物、诊断错误而备受质疑，导致美国德克萨斯州安德森肿瘤中心在已投入6 700万美元后放弃该项目。据《华尔街日报》等媒体报道，Watson诊疗系统的训练用真实病例数很小，肺癌635例已属最多，卵巢癌106例为最少。基于足够数量的数据库样本用于训练人工智能医疗器械，将大幅降低其误诊率和漏诊率。

3.3 确保数据安全

数据安全已成为人工智能的关注重点。人工智能医疗器械的网络安全存在较多隐患且无法得到及时修复，有些企业并不须具备必要的网络安全风险防控能力，其网络安全主动发现和监测预警能力均有待提升。有些企业在设计时没有考虑健康数据传输过程中的保密性等安全问题。企业作为运营者应承担主体防护责任，主管部门应履行监管责任。数据安全性的提高需得到医疗机构的配合，医疗机构在对健康数据进行归档、备份等数据传输操作时，尤其是通过公共互联网传输敏感数据时，若未对敏感数据进行加密处理，容易造成患者治疗信息、基因等重要医疗健康数据信息泄露。

医疗行业成为数据泄露的重灾区，由黑客渗透入侵导致的数据泄露事件增速最快，由于服务器配置不当、漏洞等因素造成的未授权访问问题也日益增多。2017年美国就有15次重大医疗信息泄露事件，约300万名病人的信息被泄露。我国同样面临类似严峻挑战，2017年9月《法制日报》报道了一医院服务信息系统遭黑客入侵，多达7亿多条信息被泄露，8 000多万条信息被贩卖。

3.4 算法更新导致软件迭代

软件更新是导致人工智能软件召回的主要原因之一，应考虑对软件安全性和有效性的正面和负面影响。软件更新包括数据驱动型和算法驱动型软件更新，由此产生重大软件更新、轻微软件更新及其版本命名规则。表面看来，算法作为一种数学结构，具有客观的和确定性的特征。因此，算法决策应该不大可能会受到人们的情感和价值观的影响，但实际情况却恰恰相反。人工智能的算法虽说只是一种数学表达，看似与价值无关，实际上却不可避免地存在主观偏见。这种偏见的来源是多方面的，既有可能来自于训练系统的数据输入，又有可能来自于编程人员的价值观嵌入。为加快人工智能医疗器械的审批，基于现有历史数据的回顾性研究可用于临床评价，甚至算法性能评估可采用属于回顾性研究的第三方数据库。

2019年4月2日美国食品药品监督管理局发布人工智能医疗器械变更的监管框架的讨论稿及征求意见，已于2019年6月3日前提交了讨论意见稿。拟议的监管框架可使美国食品药品监督管理局和制造商从上市前开发到上市后对软件产品性能进行评估和监控。这个潜在的框架允许将人工智能医疗器械的迭代改进能力纳入其监督管理范围之内，同时确保患者的安全。也需向公众征求对人工智能医疗器械监管的意见和看法。

四、伦理审查的要点

新事物该如何监管，对于企业和监管部门来说都是挑战。为给所有企业一个导引，2018年12月25日在北京举办“人工智能类医疗器械注册申报公益培训”，公布了人工智能领域三类医疗器械审批要点，界定了适用范围，讲解了人工智能医疗产品在审批过程中所面临的数据库、数据安全、软件更新、云计算服务等问题。医疗器械技术审评中心安排了资深医疗器械审评专家，对医疗器械的法规与注册流程、设计开发与注册申报资料要求、医疗器械临床评价与临床试验、创新医疗器械特别审批程序、人工智能医疗器械数据质量控制要求、深度学习辅助决策软件审评要点等进行了专题讲解。但这些审批流程和要点不是法律法规，而是技术文件，而技术文件可以根据技术的发展和产品的特点变化而改变。三类医疗器械审批要点的出炉对于医疗人工智能领域来说，无疑是一重大突破，尤其是对之前软件涉及不明确的数据问题，算法更新问题以及风险评估维度等都给出了定性。国家药品监督管理局跟美国食品药品监督管理局沟通紧密，亦参考了美国的做法，目前已经形成统一标准。

原国家食品药品监督管理总局与国家卫生计生委于2016年3月共同颁布了《医疗器械临床试验质量管理规范》，告别了参考《药物临床试验质量管理规范》的历史，明确了医疗器械临床试验的伦理审查要求。但迄今尚无针对医疗器械临床试验的伦理审查工作指导原则，更多参照《药物临床试验伦理审查工作指导原则》。评估受试者的风险与受益是伦理审查的核心任务。医疗器械临床试验项目的评审主要从受试产品与试验操作两个方面予以关注和考虑。伦理委员会除审查医疗器械本身的科学性和伦理性外，也要审查医疗器械与人工智能软件叠加带来的风险与受益。鉴于目前人工智能医疗器械大部分仍处于注册申报阶段，临床正在或即将开展的大部分项目是企业以科研方式进入医院，并免费试用为主。医疗机构应与企业签订合同，明确补偿和伤害受试者的赔偿，也要明确未来产品成果和知识产权的分享方式。鉴于人工智能医疗器械的前沿性，必要时需聘请独立顾问。

4.1 适用范围

根据深度学习辅助决策医疗器械软件分类，有医疗器械数据、深度学习、辅助决策、医疗器械软件；依据软件类型可分为人工智能软件组件（医疗器械内含的人工智能软件）和人工智能独立软件（本身即为医疗器械的人工智能软件）；根据软件用途分为辅助决策（包括但不限于辅助筛查、辅助识别、辅助诊断、辅助治疗），以及前处理（如成像质量改善、成像速度提升、图像重建）、流程优化（如一键操作）、常规后处理（如图像分割、数据测量）等非辅助决策。其中人工智能独立软件的适用范围包括：（1）明确预期用途、使用场景和核心功能。（2）包括但不限于处理对象、目标疾病、临床用途、患者人群、目标用户、使用场所、数据采集设备要求(若适用)、临床使用限制(若适用)。人工智能软件组件的适用范围可参照人工智能独立软件要求，并在产品适用范围中予以体现。

4.2 研究要求与资料

所有人工智能软件功能均应开展需求分析、数据收集(若适用)、算法设计和软件确认；且每项人工智能软件功能应独立开展需求分析、数据收集(若适用)、算法设计、软件确认。对于算法设计，提供算法设计的相关资料，包括算法选择及训练。要注意是否采取避免偏见的措施。算法设计应当考虑算法选择、算法训练、网络安全防护、算法性能评估等活动的质控要求。建议数据驱动与知识驱动相结合进行算法设计，以提升算法可解释性。算法性能上要注意假阳性与假阴性指标、重复性与再现性、鲁棒性/健壮性。对于深度学习非辅助决策软件，前处理需遵循算法性能评估、临床评价；流程优化需算法性能评估；常规后处理需算法性能评估，必要时需临床评价。

研究资料包括软件描述文档、网络安全描述文档、软件版本命名规则。软件描述文档要求核心算法部分应当结合本审评要点提供相应算法研究资料，以及测试集、公开数据库、测评数据库、回顾性研究、算法性能评估结果比较分析资料。其他资料应当提供网络与数据安全过程控制研究资料、第三方数据库(测评、公开)的基本信息(如名称、创建者、数据量、数据分布)和使用情况(如使用量、数据分布、比重、资质)。

研究者手册中，辅助决策软件应明确软件的适用范围、临床使用限制、注意事项、用户培训、数据采集设备要求、数据采集操作规范、输入与输出、算法性能评估总结(测试集基本信息、评估指标与结果)、临床评价总结(临床数据基本信息、评价指标与结果)等信息。此外，企业应结合法规、标准、用户、产品、数据、功能、性能、接口、用户界面、网络安全等分析需求，以避免临床需求和使用风险。

4.3 研究方案

临床试验需基于软件的预期用途、使用场景和核心功能，按照诊断试验进行临床试验设计，其核心要点包括：（1）试验设计：建议优先选择同品种产品或临床参考标准进行非劣效对照设计，次之可选择用户结合软件联合决策与用户单独决策进行优效对照设计；非劣效或优效界值的确定应有充分临床依据。此外考虑到用户的差异性，可选择多阅片者多病例试验设计。（2）观察指标：以敏感性、特异性、接受者操作特征曲线（receiver operating characteristic,ROC)/曲线下面积(area under curve,AUC)为主要指标，亦可选择时间效率等指标作为评价指标。（3）入排标准：基于目标疾病的流行病学特征。（4）参与机构：异于训练数据主要来源机构，地域分布尽可能广泛，机构数量需尽可能多。

4.4 风险控制

风险考量即是对人工智能产品在使用过程中的风险进行评价，以达到抑制风险，提高人工智能产品可靠性的目的。主要考量临床使用风险，如假阳性（误诊，过度医疗风险），假阴性（漏诊，快速进展疾病风险）和进口软件的中外差异(人种、流行病学、临床诊疗准则)。同时考量风险管理活动，包括预期用途(目标疾病、临床用途、重要程度、紧迫程度)、使用场景(适用人群、目标用户、使用场所、临床流程)、核心功能(处理对象、数据兼容性、功能类型)，采取必要的软件设计、防护、警示等措施管理软件全生命周期的风险。也要考虑临床使用限制，包括临床禁用、慎用等场景。

4.5 数据库

数据收集应包括目标疾病流行病学特征，如疾病构成(分型、分级、分期)、人群分布(健康状态、性别、年龄)、统计指标(患病率、治愈率)、并发症与类似疾病等。采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型（静态、动态）、规则、程度、方法。

临床评价可采用基于现有历史数据的回顾性研究。回顾性研究应当在设计时考虑并严格控制偏倚问题，原则上应当包含多家、不同地域、不同层级的代表性临床机构(非训练数据主要来源机构)的同期数据，尽可能来自多种、不同采集参数的采集设备。使用原则(基于风险)上，高风险软件需临床预试验或临床试验的补充，中风险软件需临床预试验或替代临床试验。

第三方数据库属于回顾性研究的一种特殊形式，可用于算法性能评估，但未必能够完全满足软件确认的要求。第三方数据库类型包括非测评数据库和测评数据库，其中公开数据库等非测评数据库不可用于软件确认，评测数据库可用于软件确认。测评数据库需满足可扩展性、网络与数据安全因素，并具有权威性、科学性、规范性、多样性、封闭性、动态性。

4.6 数据安全

企业上市前后均应考虑建设软件自身网络安全能力，也应在软件全生命周期过程中考虑网络与数据安全过程控制要求。基本考量指标有脱敏数据转移、封闭与开放网络环境、数据接口兼容性、数据备份与恢复。云计算服务应明确服务模式、部署模式、核心功能、数据接口、网络安全能力和服务(质量)协议。移动计算终端需结合终端的类型、特点和使用风险明确性能指标要求。

4.7 软件更新

重大软件更新要许可事项变更，而轻微软件更新需质量体系控制，但无需申请注册变更。算法驱动型更新包括软件所用算法、算法结构、算法流程、所用框架、输入与输出等发生改变，包括算法重新训练（即弃用原有训练数据）；数据驱动型指仅由训练数据量增加而促使软件更新，实为算法驱动型软件更新的特殊情况。对于重大软件更新，判定需遵循的原则为算法驱动型软件更新通常属于重大软件更新，数据驱动型软件更新若导致算法评估结果发生显著性改变(与前次注册/伦理批件相比)则属于重大软件更新。

无论何种软件更新，均应根据质量管理体系要求，验证与确认与软件更新类型、内容和程度相适宜的活动。数据驱动型和算法驱动型软件更新均应再评估算法性能和临床应用。属于临床科研项目的数据驱动型和算法驱动型软件更新，均需按照新项目进行伦理初始审查。对于高风险软件，适用范围变更应当开展临床试验，其他情况原则上可使用旧的临床试验数据和回顾性研究。对于中低风险软件，可使用临床试验数据和回顾性研究。

要明确并区分重大软件更新和轻微软件更新的版本命名规则，重大软件更新应列举所有典型情况，并涵盖数据驱动型和算法驱动型软件更新。

来源：搜狐号-证标客医药技术咨询

人工智能医疗器械医疗器械临床试验伦理审查要点

相关推荐

联系我们

关注我们