AI实验室与制药公司的比较

在过去一年中，我花了大量时间思考AI领域可以从制药行业学到什么。作为一名曾参与临床试验工作的医生，我对制药行业的流程非常熟悉，并随着时间的推移深深地欣赏这些流程。我还花了几个月时间提升AI技能，从学习Transformer的工作原理、参加会议，到管理机器学习运行项目和网络安全研讨会。

在这里，我将AI实验室与制药公司进行对比，展示一些我最关注的差异案例，并讨论受临床试验框架启发的更严格的AI模型评估方法。

感谢 LightSpeed Grants 为研究这一课题提供的部分资助，以及在过去一年中与我讨论这些想法的许多人。

AI实验室 vs. 制药公司

“该行业生产的产品可以带来巨大的利益，也可能对个人构成严重的风险。开发产品需要大量的技术专长，开发成本高昂（超过1亿美元）。”

这一描述既适用于AI实验室，也适用于制药公司。此外，监管机构在AI领域也开始倾向于类似的”基本不受监管”和”严格监管”的二分法，这与药品监管中已有的做法类似。使用应用场景和投入的计算资源（约10^26 FLOPs）等指标来区分，类似于药品与膳食补充剂的监管区别。

在下方的表格中，我将研发流程和利益相关方进行了对比。研究和测试的早期阶段看起来非常相似。在研发流程的后期，明显的差异开始显现，例如人们常讨论的审批/部署/许可路径的差异——对于AI而言（在目前阶段）远没有系统化，而且往往缺少完整的工作流程。

除此之外还有许多差异。一个核心差异在于，药物开发的各个阶段是为了严格测试候选药物的安全性而设计的。安全性的定义是防止系统或产品以不良或有害的方式影响其环境，通常是为了保护人类生命、自然环境或资产。药物开发流程并非为识别和应对威胁模型而设计——即有人故意利用药物危害他人的安全风险。安全（Security）旨在防止通常具有对抗性的行为者或条件以不良或有害的方式影响系统，例如产品武器化、自主复制、安全漏洞或广泛的社会风险。事实上，2010年美国国家研究委员会的一份报告得出结论，以监管所需的确定性程度来预测毒力或致病性等特征，以更好地应对生物工程潜在大流行病原体的风险，在可预见的未来是不可能的。

虽然AI系统的安全性显然令人担忧，但大多数专家对其安全（Security）影响更为紧张，即这一工具如何被滥用。AI行业可以从药物开发中广泛学习不良事件的检测和管理，但在保护群体甚至整个社会免受技术滥用方面，AI行业需要向其他领域寻求指导。

如果说有什么启示的话，那就是AI应该超越药物开发中的要求标准，对吗？

尽管存在明显差异，许多作者已经撰写了关于AI行业可以从FDA在监管和许可方面汲取的各种经验。

与药物监管机构相比，与制药公司密切相关但很少被讨论的四个经验教训是：

预算
科学方法
范围界定
生态系统的制衡机制

AI的关键改进领域

领域	药物开发	AI
（背景）	药物开发和其他行业花了近一个世纪来开发评估、测试和保证产品质量与安全的方法论。行业最佳实践多年来取得了巨大进步。然而，这些标准并非一日之功，缺乏适当措施曾对企业和患者造成严重后果。	AI是一个新兴领域，在安全和安保相关工作方面几乎没有track record。鉴于从相关领域的有限借鉴（以及学术界的最低关注度），如果AI实验室未能满足我们对其他高风险行业的社会期望，我们应该非常担忧。
预算	如今，药物开发中约50-90%的研发总成本投入到质量和安全措施中（包括良好生产规范的间接成本、动物实验、临床试验等）。	AI公司似乎仅将低个位数百分比用于保障措施（由于训练成本上升，相对比例还在不断下降）。这与我们在制药或航空等成熟行业中看到的情况恰恰相反。
生态系统制衡	药物开发在一个生态系统中进行，远非由单一实体运营。这使得众多制衡机制得以实现。	AI公司大多是自主运营的，几乎没有制衡机制。
范围界定	测试取决于范围界定，如果范围或产品发生变化，必须重新测试。在测试分布之外应用药物时必须非常谨慎。	AI的应用似乎不认识”超出范围”的概念。安全性结果往往被过度泛化。
科学方法	药物评估基于量化可接受的风险，并获得关于现实世界风险的具有统计可靠性的信息。	AI实验室目前采取更偏定性的风险评估方法，缺乏适当的假设检验。

预算：将资金投入到质量和安全上

这是对我来说最有说服力的见解之一。简而言之，药物开发总成本的50-90%用于安全测试和质量保证。严格的测试——包括放弃不安全或无效的产品——是药物开发如此昂贵的原因，而非药物本身的制造工程挑战。数亿美元投入到安全评估中，它们可能是药物开发项目中最大的单一研发成本因素，其次是有效性评估、失败候选药物和工艺开发/生产。

提供一些数据：每个获批药物的研发支出在不到10亿到超过20亿美元之间。失败的候选药物占这些成本的三分之一。从临床前试验到获批，工艺开发和制造消耗约15%的研发预算。成功候选药物的大部分（约60%）费用产生于临床测试阶段，其中第1期和第4期试验合计是最昂贵的。坦率地说，很难将成本区分开来，因为几乎所有工作都围绕着生产安全可靠药物这一核心教条。

以10亿美元的药物审批为例：

3.3亿美元（33%）：主要因疗效或安全原因而被放弃的失败候选药物
1亿美元（10%）：工艺开发和制造成本

6600万美元（6%）：GMP中严格的质量和测试标准（⅔）和实际制造成本（⅓）（来自专家经验的估算）

小规模初始GMP批次（至第1期）：300-1000万美元中/大规模GMP批次（第2期至获批）：2500-5000万美元
2.25亿美元（22.5%）：临床前开发工作，包括多次迭代的

体外试验，不到50万美元，

动物实验（50-500万美元）和
小规模初始非GMP药物批次，50-150万美元
3.35亿美元（33.5%）：临床试验

成本差异巨大，但可分别引用为400万、1300万、2000万和2000万美元。

平均试验次数：第1期（1.7次），第2期（2.0次），第3期（2.8次），第4期（3.2次）
合计平均成本约为1.55亿美元
由于长达十年的开发周期，每个类别中资本机会成本占25-50%：

临床前阶段：约31个月

临床阶段：5.9-7.2年（非肿瘤），13.1年（肿瘤）单个试验持续时间：第1期（1.6年），第2期（2.9年），第3期（3.8年）

从药物开发成本来看，安全和质量保证占研发总支出的50%以上。分析临床试验、临床前阶段的动物实验、失败的候选药物和GMP间接成本后，开发与安全成本的比率在1:1到1:10之间，具体取决于治疗领域和使用的定义。新型药物设计由于其未知性需要额外的强制安全措施，这意味着安全和质量保证可占总成本的50-90%。

在航空领域，我对客机研发成本分解的简要调查显示，总成本约为药物开发的十倍，即每架新飞机100亿美元以上。安全和质量保证融入每个研发步骤，仅测试/认证过程就跨越多年，消耗数亿美元。测试/质量保证与实际制造成本的比率似乎更接近1:1，但这值得更深入的调查。（一个有用的直觉参考：一架新客机的价格在1亿美元左右，即开发成本的1-5%）

AI开发者似乎处于另一个极端，估计95%以上的总部署成本用于本质上是制造的过程——训练模型。例如，ChatGPT估计1亿美元的成本中只有微不足道的金额用于安全措施。业内人士证实，安全测试通常只获得低个位数百分比的投资。

鉴于AI的高风险性，训练成本与保障措施的最低比率为1:10似乎是AI模型的适当水平——甚至可能需要更多。然而，即使是这一建议比率也低于忧心忡忡的AI专家的建议，他们呼吁至少将三分之一的研发预算用于安全和伦理使用。这也低于一些AI实验室宣称的安全预算，例如OpenAI前超级对齐团队的20%。

生态系统的制衡机制：利益相关方有切身利益的多方开发

药物开发有许多机制将独立方纳入流程并赋予他们影响力。许多生产和制造服务由外部供应商提供，合同研究组织监督测试，药剂师处理产品，医生招募（以及后来治疗）患者。他们中的每一个人都对自己的工作负责，并被期望确保最佳实践得到遵守。如果不遵守，他们将承担法律责任，可能失去运营许可证，甚至入狱。

在下表中，我试图对比药物开发和AI之间不同类别的利益相关方。在完成工作方面，需要在更多人之间协调当然是一个挑战。但将责任分散到各参与者之间并通过法律追究每个人的责任，似乎是推进一个领域的更加稳健的方式。激励机制可以更好地防范鲁莽行为和欺诈。

一个AI实验室不仅需要找到拥有足够电力和GPU的数据中心，还必须与多个委员会、独立董事会、敏感应用专家等进行深入合作的世界，对我来说会更有吸引力。

表格：药物开发 vs. 高风险AI开发中的利益相关方

以下是药物开发中的”参与者”与高风险AI模型开发中的参与者的比较。请注意，虽然药物开发中每个参与者在高风险AI开发中都存在合理的对应角色，但大多数尚未建立，尽管已有初步努力。独立委员会、认证和公开报告系统的建立此前已被确定为AI治理的关键。

领域	类别	药物开发实施	高风险AI模型开发实施
监管机构	国际指南制定	ICH / OECD / WHO 良好X规范（GxP，x = 可变）指南及本地实施，例如良好临床实践（GCP）——用于临床试验的设计和实施；良好实验室规范（GLP）——用于非临床（动物）研究的设计和实施；良好生产规范（GMP）——用于药品的生产。“GMP物料”指按照GMP标准生产的药品。	例如NIST AI风险管理框架和ISO/IEC FDIS 23894。
	地方法律和监管指导	美国提交需遵守这些标准（例如21CFR210用于GMP，21CFR58用于GLP，21CFR多个部分用于GCP），其他国家也经常要求遵守。	欧盟AI法案、伦理AI指南及类似法律
	监管机构	FDA、EMA等	不明确
独立机构	独立咨询委员会	例如为监管机构提供评估的专家组	非标准做法
	独立伦理委员会	机构审查委员会（IRB）	非标准做法
	独立安全委员会	安全数据库和数据安全监测委员会（DSMB）	非标准做法
	独立审计员	由独立外部专业人员以及联邦机构进行审查	非标准做法
	公众参与	患者组织参与相关委员会	非标准做法
	非营利组织	公共倡导团体和非营利监督组织	GovAI和RAND等智库
报告	公共数据库	Clinicaltrials.gov、其他国家试验注册	非标准做法
	在同行评审期刊上发表结果	医学期刊（强制发表策略）	非标准做法，Arxiv（自愿）
公司	申办方	制药公司（通常是申办方）	AI实验室
服务提供商	运营服务	合同研究组织（CRO）用于项目管理	非标准做法
	领域专家	疾病、法规、应用等方面的顾问	例如化学/生物双重用途和其他有害应用的顾问
	制造	合同开发和制造组织（CDMO）	数据中心/云服务提供商/能源提供商
	早期产品评估	动物研究提供商、专业实验室	如METR等组织
	培训和认证组织	医学/药学执照、GxP培训、审计等	非标准做法
	物流/分销提供商	供应链/药房	运行模型的云服务提供商（例如仅通过认证提供商才能合法访问AI模型）
	高级产品评估	研究站点	非标准做法。可能的方向：拥有经特别认证的网络安全系统的公司，可参与受控的真实世界评估运行
	本地负责人	主要研究者（PI）医师	非标准做法。可能的方向：公司中的AI官员
	研究受试者	患者	客户/IT系统/数据结构等
实际应用	真实世界测试	第4期研究	ChatGPT和其他大语言模型的公开测试版
	真实世界监测	例如FDA不良事件报告系统（FAERS）	非标准做法；OECD关于事件报告数据库的提案
	客户	患者	客户
旁观者		通过医生进行准入控制。药物开发几乎没有对非客户造成伤害的历史	强烈怀疑旁观者可能面临高风险并发症

范围界定：不同客户和持续修改的影响

获批药物总是有一个目标适用人群。在该人群之外开处方进入法律灰色地带，需要极其谨慎。同样，药物修改（甚至复制该物质的仿制药）需要全面的新研究来证明：a）过去的证据仍然有效，b）新证据证明在类似目标人群中的安全性。这在将最新创新部署给全球所有潜在患者与维持每个目标群体和版本的安全和安保标准之间产生了内在的张力。

AI开发者似乎对其安全和安保评估的范围界定不足，部署到远离测试场景的客户和环境中，且没有充分追踪后果。

虽然生成式AI模型的安全测试因其广泛的能力而被认为异常复杂，但这不应导致放弃安全测试。相反，这表明能力范围太广，需要缩小范围以允许收集确切的安全数据。解决方案是缩小生成式AI模型的用例。许多候选药物同样在不同疾病甚至健康个体中显示出广泛的潜在益处。然而，由于建立产品安全信心的成本，公司只能将它们推向已收集到令人信服的安全性（和有效性）证据的目标人群。

无论是对整个社会、公司还是特定个人，不同的用例需要不同类型和数量的确切可靠证据来确定产品安全性，无论是通过公司测试还是监管监督。这需要结构化的方法和对实验规划、执行和分析的外部验证。

科学测试：可靠评估危险能力的AI安全研究——规模至关重要

在药物开发中，所有利益相关方都有一个共同的执念：不伤害人类。这既适用于测试受试者，也适用于最终将接受药物的数百万人。大量资源投入以确保安全，开发、测试和推出的每个方面都旨在满足预定义的条件。

量化可接受风险有多种方式，风险容忍度始终取决于背景和潜在的积极效果。例如，对于晚期患者使用可能挽救生命的药物，其可接受的风险特征与对健康个体接种轻度病毒疫苗有显著不同。药物开发中最严重的不良事件被称为”严重不良事件”（SAE），包括七种特定事件类型（详见定义）。对于大多数药物，即使是个位数的此类事件也可能导致整个开发项目停止或限制药物在某些患者人群中的使用。严重不良事件发生率在1:100到1:10,000之间通常被认为是不可接受的。

这种严格性的存在是因为在整个人群中推出药物可能导致数千人死亡或其他SAE——这在大多数情况下被认为是绝对不可接受的结果。防止此类情况需要严格的证据收集、监测和质量保证。

药物开发中预期伤害的上限似乎是AI专家认为的灾难性风险的下限。除了直接的个人伤害之外，AI专家承认潜在的灾难性社会风险，从”数千人死亡或数千亿美元损失”（Anthropic的RSP）到灭绝级别事件。

当前主要的威胁模型集中在：

恶意行为者利用AI通过网络、生物、核或社会动乱手段造成伤害
自主的、不可控的AI代理造成的类似威胁

当前评估前沿AI模型风险的框架通常涉及3-10名领域专家组成的团队，试图引出特定能力，以搜索引擎或人类表现等公平比较对象为基准（如生物评估报告和各种系统卡片中所见）。

虽然各个团队测试各种提示和路径，但单个团队在给定资源下无法引出危险能力并不能保证其他同等能力的团队不会成功——哪怕仅仅是靠运气。AI模型中的能力引出仍然是一个新兴领域，业余人士不断展示的越狱和其他攻击凸显了测试规模的重要性。

如果我们想声称”X类型的个人在Y资源条件下无法引出此能力”，我们需要具有可接受事件率（例如1:1000）和统计功效阈值（例如90%功效）的实验，且多次独立重复。

通过足够的重复（在样本量计算的指导下），未检测到任何团队引出危险能力可以支持如下声明：“我们有95%的信心认为，拥有Y资源的X类个人中，不到千分之一的团队能够从模型中引出这些能力。“虽然这不能完全防止灾难性风险，但它提供了比AI实验室员工评估更加可靠的数据——这些员工存在明显的利益冲突。

AI实验室应评估并实施前沿模型的缓解措施，以获得具有统计可靠性的数据，了解不同专业水平和资源水平的个人或团队是否能够滥用其模型。危险自主性风险也需要类似的证据，但本文讨论集中在滥用场景。关于理解不同的威胁行为者，RAND关于保护AI模型权重的最新报告定义了从OC1：业余水平（约1,000美元）到OC5：国家级行为者（10亿美元预算）的五个运营能力（OC）级别。这些资源级别也与危险能力评估相关。

RAND AI威胁行为者运营能力级别 — RAND的AI威胁行为者运营能力级别（OC1-OC5）。来源：RAND研究报告RRA2849-1

为了展示在滥用场景中可靠的假设检验，让我们考虑各运营能力级别行为者的全球分布：

OC1（业余）：100,000个行为者
OC2：10,000个行为者
OC3：1,000个行为者
OC4：100个行为者
OC5（国家级）：2个行为者

使用统计学中的三分法则，要可靠地排除任何OC级别的非预期能力引出，你需要大约3倍的测试实例数。例如，300,000次OC1级别的尝试可以让你以95%的置信度声明，拥有不超过1,000美元资源的业余编码人员中，不到十万分之一能够引出危险能力。

危险能力的引出可以通过跨领域的综合评分或单个指标来衡量，需要仔细考虑适当的主要终点。

重要的是，这种规模的测试是可以实现的：Lakera通过创建”Gandalf”（一款在线越狱游戏，挑战用户设计难度递增的巧妙提示）证明了这一点。他们的社区在超过100万次会话中累计投入了25年的时间来尝试越狱他们的系统。

Lakera Gandalf越狱游戏界面 — Lakera的Gandalf游戏——一个众包越狱挑战，已累积超过100万次会话。来源：gandalf.lakera.ai

在其负责任的扩展政策中，Anthropic定义，如果行为者能够以”总训练成本的1%“引出危险能力，他们将认为这是令人担忧的，从而启动大量额外的安全缓解措施。总训练成本的1%大致相当于OC3，基准约为100万美元。如果我们想以95%的置信度确保这些群体中不到千分之一能够做到这一点，我们需要约3,000次试验，这与疫苗药物开发中需要提供检测千分之一不良事件数据的最低参与者人数非常相似。这相当于运行一项第3期临床试验，但成本可能是其100倍（约3000万美元/试验 vs 30亿美元）。重要的是，人们可能会认为，虽然全球存在1,000个这样的行为者，但并非所有人都会决定滥用该模型/会为此花费那么多钱。可以假设，上述3,000次试验、平均每次试验100万美元的实验也将包括OC4级别行为者（拥有1000万美元资金的行为者）。与药物开发类似，人们会假设可能需要多次这样的试验，特别是对于通用AI模型。通用模型有许多威胁模型，使得测试所有模型极其困难。缩小模型的能力范围，例如纯粹针对代码训练，或纯粹针对生物学等，将消除多条测试路径的必要性。

来自OC5行为者的滥用可能超出模型安全测试的范围，因为这些行为者的资金（≥10亿美元）足以自行创建前沿模型。此外，OC3和OC4级别的研究将为关键缓解措施提供指标，这些措施也适用于资源更丰富的行为者。此外，安全缓冲区可以作为假设国家级行为者可能能力的代理（例如，将阈值转向更保守的一端）。

上述提议需要对测试基础设施进行大量投资。类似于制药公司、合同研究组织和招募患者的质量保证研究站点之间的互动，前沿AI实验室可能需要与提供平台的公司合作，以安全地与质量控制的团队和合作伙伴互动，并有非常明确的监测和报告要求。

附录

药物和AI模型开发流程比较

本表列出了药物开发流程的所有基本步骤，并映射了AI模型开发领域的相应步骤和术语。在早期阶段，存在大量重叠，而在后期阶段，AI模型没有与临床测试对应的环节。

药物开发	里程碑	AI模型开发
目标人群和疾病文献综述；患者采样；专家咨询	发现	目标：通用人工智能
计算机模拟/体外原型设计。产品识别。与监管机构沟通如何最好地评估和确定安全性/有效性	研究	原型设计（测试运行、假设检验、早期算法评估）
通过工艺开发运行生成初始药物物质	早期制造	通过迭代训练运行生成初始模型权重（在预定义间隔进行迭代评估）
制剂和灌装以获得初始药品	训练（测试运行）	将用户界面附加到模型上
临床前（多项体外、动物实验），0期试验。伦理批准	在受控环境中进行早期药物评估和迭代药物改进
毒理学。开始在高度受控的低风险环境中评估特性、安全性和有效性	安全评估	通过标准测试和红队测试对危险能力（可控性、自主复制、欺骗等）进行安全评估
药理学（药效学和药代动力学）		可解释性运行，包括能力测试
多种模式生物		公平性评估
各种温度、时间点和分析方法	稳定性测试	准确性、鲁棒性和越狱测试
由领域专家评估生成的数据。概念验证已建立——对扩大规模的额外投资	咨询外部专家	由外部专家进行评估
临床批次	生产制造运行	使用评估运行中的额外数据训练的模型现在满足所有要求。模型微调
每项研究单独的监管和伦理批准	在受控环境中进行广泛的真实世界药物评估：临床试验	AI模型开发流程中没有受控的真实世界评估
第1期（约2次）：在一小组健康志愿者中评估药物的安全性和剂量。这有助于确定安全剂量范围和识别潜在副作用。		开始在高度受控的高风险环境中测试特性、安全性和有效性
第2期（约2次）：在较大的患有目标疾病的患者群体中评估药物的有效性并进一步评估其安全性。
第3期（约3次）：在更大的患者群体中测试药物，以确认其有效性、与常用治疗方法进行比较，并在更多样化的人群中监测副作用。
在整个开发过程中进行与提供的材料或服务的关键性成比例的审计。收集所有必要的安全性和有效性数据，供监管机构评估	由申办方和监管机构进行的审计和检查
申请	审批和上市后药物监测	逐步公开推出
第4期（约3次）：向公众开放		Beta测试项目
全面市场发布		公开发布
不良事件报告		撤回
		准入控制
新申请流程并收集新数据	更新版本	部署更新模型。更新

临床试验安全原则概述

类别	描述	文件
准备	真实世界测试前的研究：文献、动物和后来的人体数据中表明令人担忧的影响及其频率的信息被汇总在持续更新的报告中，这些报告定义了需要监测的合理相关不良事件。	各种临床前安全测试的国际指南。示例（强制性）临床前安全手册和说明书（消费者版）（医生版）辉瑞/BioNTech Comirnaty。
	优化的实验设计：采用序贯测试、模拟和样本量计算等策略，以最大限度减少伤害、确保资源效率，并在特定频率下检测不良事件（例如每10,000,000次用户交互中1次不良事件）。	FDA和EMA基于ICH E9指南的临床试验统计学原则指导。
	优化的检测环境：配备经过强制培训的人员的专业场所，以最佳方式检测、响应和报告不良事件。	参见良好临床实践第4节指南和FDA关于医生职责的指导。
检测	专门实验：临床试验，特别是第1期、第3期和第4期研究，是专门设计用于检测不良事件的大规模实验。	人体测试安全的国际指南（参见E1和E2A-F部分）和FDA上市后评估指导。
	持续不良事件评估：在开发期间和上市后进行广泛的结构化数据收集。通过药物警戒常规实施自动信号检测。	“药物警戒是与不良反应或任何其他药物/疫苗相关问题的检测、评估、理解和预防有关的科学和活动。“世卫组织定义
	记录所有负面事件：通过记录任何意外、不期望或有害的事件来确保全面视角，无论其因果关系如何。	“因此，不良事件（AE）可以是与使用药品在时间上相关的任何不利和非预期的体征（包括异常实验室检查结果等）、症状或疾病，无论是否被认为与药品有关。“ICH E2A
	维护可靠数据：使用可审计的安全数据库，遵守良好文档规范，并实施各种形式的监测。	如GCP第4.9节所述的良好文档规范（GDocP）。
管理	不良事件的分类和优先级排序：相关性（治疗与效果之间的因果关系）、严重程度（受影响个体经历的强度）、预期性（与预期不良事件的一致性）、结果（后果的严重性）、聚类（事件的层次化映射）。	国际临床安全数据管理：报告的定义和标准，以及FDA实施。MedDRA提供了超过70,000个医学术语的映射。
	预定义的事件处理：针对特定类型的预定义程序和通知。	医生和制药公司的安全事件程序（GCP第4.11、5.16、5.17节）。
	无偏评估：使用独立监察员/安全委员会和多方决策以消除利益冲突。	FDA关于数据监测委员会的建立和运作。

典型临床试验申请中的文件

最低文件集将包括
研究方案

引言（包括研究理由、背景、风险/收益评估）

目标和终点
研究设计（包括科学依据、研究结束定义、停止标准）
研究对象（包括入选/排除标准）
AI模型干预和管理（包括数据基础设施、责任、准备等）
研究终止
研究评估和程序（包括基准测试、评估、可解释性工作、不良事件定义、独立监测等）
统计学考量（包括统计假设、样本量确定、终点分析等）
行政事务（包括伦理、数据隐私、知情同意、记录等）
研究者手册（类似于AI中的模型卡片）
知情同意书
供应商评估计划
监测计划
项目管理计划（包括沟通、上报）
供应商管理计划
试验主文件计划（包括研究者现场文件）
安全管理计划
风险评估和分类
数据管理计划
统计分析计划