前瞻性诊断准确性试验设计要点-北京物流信息联盟

尽管受到了一些质疑，循证医学理论体系仍然是现代医学不可动摇的基石之一。循证医学金字塔(图1)对于临床指南的制定具有不可忽视的影响力，其核心可以简单概括为：对于疾病的治疗，干预性研究的说服力强于观察性研究，临床研究的说服力强于基础研究，数据的说服力强于个人经验。值得注意的是，循证医学金字塔其实是侧重于对疾病治疗措施的证据进行分级。

图1 循证医学金字塔

然而，在临床研究的版图(图2)上，除了疾病治疗类研究外，还存在一类特殊的研究，即诊断准确性试验。诊断准确性试验与治疗类研究的观察重点不同，前者侧重于评分某一手段诊断疾病的准确性，后者则侧重于评价某一干预措施的疗效和安全性。在临床实践中，没有明确的诊断就无法进行规范化的治疗。因此，诊断准确性试验也是一类十分重要的临床研究类型。

图2 临床研究版图

根据数据收集类型或研究对象招募方式，诊断准确性试验可以分为前瞻性设计、回顾性设计和双向性设计。

前瞻性设计是指预先制定纳入排除标准，招募将来的研究对象进入研究；
回顾性设计则是指通过回溯既往病例的方式进行研究；
双向性设计则可以简单理解成针对同一问题的前瞻性设计和回顾性设计的组合。

回顾性研究的设计要点在本书中已有相关论述，笔者就不再赘述了。在本文中，笔者以一篇刊登在J Intern Med上的论文为例^[1]，浅析如何设计一项严谨的前瞻性诊断准确性试验。

例文简介

1.研究背景介绍

呼吸困难是患者就诊于急诊室的主要原因之一。当急诊科医师接诊到呼吸困难患者以后，首先要明确诊断，找出导致呼吸困难的原因，然后才能有针对性地制定相应的治疗措施。导致呼吸困难的疾病很多，包括心衰(HF)、肺炎、急性冠状动脉综合征(ACS)、肺栓塞(PE)、哮喘、慢性阻塞性肺病(COPD)等。

其中，诊断心衰是一个比较棘手的问题，因为影像学检查和体格检查、病史、体征等提供的信息量有限，不能满足临床需求。因此人们一直试图找出对心衰具有较高诊断价值的实验室标志物。利钠肽类标志物的发现，极大地提高了心衰的诊断准确性。

目前，B型利钠肽(BNP)和N末端B型利钠肽(NT-proBNP)是诊断心衰最常用的标志物。然而，由于BNP和NT-proBNP的诊断效能并非完美无缺，因此仍然有必要继续寻找新的心衰标志物，弥补BNP和NT-proBNP的不足，或者将其取而代之。

众所周知，心衰患者血流动力学紊乱，心房和心室都会受到物理性的牵拉。心室细胞受到牵拉时会释放B型利钠肽前体(proBNP)，proBNP在外周血进一步降解会形成NT-proBNP和BNP，这也是NT-proBNP和BNP可以用于心衰诊断和预后评估的病生基础。利钠肽类家族还有另外一个成员叫A型利钠肽，其主要表达于心房细胞。当心房细胞受到物理牵拉时，A型利钠肽前体(proANP)释放入血。

proANP共包含126个氨基酸，其在外周血中降解为两个片段：第1至98个氨基酸组成了N末端proANP(NT-proANP)，第99至126个氨基酸则组成了成熟的ANP。由于NT-proANP的半衰期较长，因此理论上讲是较好的心衰标记物。遗憾的是，NT-proANP的检测技术发展缓慢，以前建立的方法都不是很稳定，很难满足临床需要。

2004年，性能可靠的NT-proANP自动化方法才得以建立^[2]。该法主要是基于电化学发光原理，由于捕获抗体和标记抗体针对的表位都位于NT-proANP的中段，因此人们将这种方法检测到的蛋白称为中段A型利钠肽，即MR-proANP。理论上讲，当心脏受到牵拉时，proANP的释放量是proBNP的10至50倍，因此MR-proANP在心衰诊断方面的价值可能要优于传统的BNP和NT-proBNP。J Intern Med上的这篇论文的研究目的就是比较MR-proANP和NT-proBNP诊断兴衰的能力。

2.研究设计以及结果简介

研究者首先前瞻性、连续性招募了287名因不明原因呼吸困难而就诊于急诊室的患者，这些患者进入就诊后，研究者就嘱其签署了知情同意书，并收集了其血清标本，即基线血清标本。随后，研究者根据患者的诊疗需要对患者进行体格检查、病史采集和各种检查，包括心电图、胸片、血清BNP等，目的就是为了明确诊断。同时，接诊医师根据这些资料给出一个“心衰概率评分”：0分表示确定不是心衰，100分表示确定是心衰。这一评分实际上反映了临床医师根据已有资料诊断心衰的准确性，也可以简单理解为常规资料提供的诊断信息。

待所有患者出院以后，研究者邀请两名心血管病专家独立地阅读患者的病历，结合检查结果、治疗反应性等，分析呼吸困难是否是由心衰引起的。最终，专家发现287名不明原因呼吸困难的患者中，心衰患者为154名，余下的133为非心衰患者。

研究对象的招募完成后，研究者取出患者的基线血清，比较了心衰患者和非心衰的血清NT-proBNP和MR-proANP，发现心衰患者的这两项指标明显高于非心衰患者。受试者工作特征(ROC)曲线表明，NT-proBNP和MR-proANP诊断心衰的曲线下面积(AUC)均为0.92，说明二者均为十分优秀的心衰诊断标记物，且总体诊断效率相似。Spearman分析发现NT-proBNP和MR-proANP的相关系数高达0.89。研究者进一步比较了MR-proANP与心衰概率评分的曲线下面积，发现“心衰概率评分”的曲线下面积为0.90。如果MR-proANP与“心衰概率评分”联合使用，曲线下面积则为0.96，显著高于“心衰概率评分”本身(P=0.016)。这一结果说明，MR-proANP可以改善“心衰概率评分”的诊断准确性。

由于AUC仅仅是一个统计学量化指标，没有较为直接的临床解释。因此研究者又进一步采用最大准确性来分析和比较NT-proBNP、MR-proANP以及“心衰概率评分”的诊断准确性，结果发现，NT-proBNP的最佳诊断界值是1560pg/ml，此时的准确性为85%；MR-proANP的最佳诊断界值为206 pg/ml，此时的诊断准确性为84%；相比之下，“心衰概率评分”的最佳诊断界值是80分，其准确性只有79%。如果MR-proANP和“心衰概率评分”一起使用，诊断准确性可以提高到88%。

这一结果同样说明，MR-proANP如果和“心衰概率评分”一起使用，可以在一定程度上改善“心衰概率评分”的诊断价值。这里面牵涉到一些诊断准确性试验的基本指标的统计学原理，限于篇幅所限，笔者在此不再赘述，感兴趣的读者可以参与笔者此前发表的相关文章^[3-4]。

当然，研究者还采用logistic回归分析了NT-proBNP和MR-proANP与心衰的关系，结果发现，如果分别以206 pg/ml和1560pg/ml作为界值来将MR-proANP、NT-proBNP转化为两分类变量，二者均与心衰独立相关。

最后，作者进行一些亚组分析，主要是采用logistic回归分析了在一些特殊病例中，MR-proANP与HF的关系是否独立于BNP以及NT-prBNP。这些特殊病例包括：BNP处于灰区(100 pg/ml至500pg/ml)的病例、eGFR小于60ml/min的病例、BMI大于30kg/m2的病例。最终证实：在BNP处于灰区的受试对象中，即便校正BNP和NT-proBNP，MR-proANP仍然与心衰独立相关，但NT-proBNP并不与心衰独立相关。而且，研究者还发现，在心衰患者中，NT-proBNP受BMI影响，但是MR-proANP不受影响。

研究的大致内容就是这些，总体而言，这是一项十分出色的诊断准确性试验，作者想要传递的学术观点概括起来就是：

在不明原因的呼吸困难患者中，MR-proANP是一个十分优秀的心衰诊断指标，其诊断价值可以完全和NT-proBNP媲美；
和NT-proANP一样，MR-proANP可以提供常规临床信息所不能提供的诊断信息。换句话说，在不明原因呼吸困难患者中，将NT-proANP和MR-proANP引入临床，可以改善心衰的诊断准确性；
在一些特定的患者中，MR-proANP比NT-proBNP更具有诊断优势。

如何设计良好的前瞻性诊断准确性试验：这项研究给我们的启示

1.只有前瞻性前瞻连续招募

才能保证研究对象的代表性

作者在描述研究对象招募时，研究者写道：：We prospectively enrolled 287 consecutive patients presenting to the ED of the University Hospital Basel with dyspnoea as the most prominent symptom from April 2006 to March 2007。在这句话中，prospective和consecutive是两个极为关键的词。可以毫不夸张地说，这两个词极大地提升了文章的档次。Prospective表示该研究为前瞻性研究，其说服力要强于回顾性研究。Consecutive则表示研究对象是连续招募的，或者说招募到的对象是来自真实世界的对象，因此研究结论具有较强的外推性。

募集到真实世界的研究对象对于诊断试验来说至关重要，我们举一个例子进行说明：假定在真实世界中，每招募到1000个呼吸困难的患者，就会有200个患者是心衰，800个为非心衰，即心衰在呼吸困难人群中的患病率为20%。再假定MR-proANP在某一界值下诊断心衰的敏感性是0.85，特异性是0.90，则我们可以得到如下四格表（表1）。

表1 MR-proANP诊断心衰的价值（前瞻性研究）

根据表1可以计算出很多诊断性能指标，包括：敏感性、特异性、阳/阴性预测值、阳/阴性似然比、诊断比数比等。在临床实践中，由于敏感性、特异性这两个指标的临床解释较为繁琐，临床医师更喜欢阳性预测值和阴性预测值这两个指标，因为这两个指标直接告诉临床医师：当MR-proANP阳(阴)性时，患者患心衰(未患心衰)的概率是多少。假定一个患者的MR-proANP为阳性，根据表1的结果，我们可以推测中，患者患心衰的概率是170/(170+80)=0.68。这个0.68是基于真实世界人群得出的数据，所以可以在临床上推广。

但如果一项研究是回顾性研究，由于真实世界已经一去不复返了，研究者去确定心衰发病率就会困难重重。由于部分患者在就诊期间可能没有接受MR-proANP检查，即便研究者采用“连续回顾”的方式回溯过去一段时间内所有因呼吸困难而就诊的患者的资料，也无法得知心衰真实的发病率。假定非心衰患者中会有部分人群因数据不全而被排除出研究，很有可能得到以下数据（表2）。

表2 MR-proANP诊断心衰的价值（回顾性研究）

由于敏感性和特异性不受发病率的影响，所以表2中MR-proANP的诊断敏感性仍然为0.85，特异性仍然为0.90。但如果再计算阳性预测值，则为170/(170+40)=0.81。也就是说，如果一个患者MR-proANP为阳性，其患心衰的可能性变成了81%。

在表1和表2中，敏感性和特异性均未发生变化，但是直接影响临床决策的阳性预测值却变化了。很显然，由表1中的阳性预测值要比表2中的阳性预测值可靠，因为表1中的样本代表性较好，心衰发病率的数据较为准确。

在诊断准确性试验中，前瞻性研究的论证强度要高于回顾性研究，原因之一就在于前瞻性研究：

①资料相对完整；

②可以连续招募病人确保研究对象具有代表性。

需要说明的是，在国内杂志上刊登的诊断准确性论文，很多设立了健康对照，这是一种十分不严谨的试验设计。健康个体和疾病之间仅凭症状、体征就可以大致鉴别出来，根本不需要任何诊断实验。

2.双盲设计十分重要

在材料和方法、摘要中，作者提到了一个十分重要的实验设计信息：患者在进行最终诊断时并未参考NT-proBNP和MR-proANP的检测结果；负责检测NT-proBNP和MR-ProANP的检验师(待评价手段的执行者)也不知晓患者的临床资料。这是一个十分重要的试验设计细节，我们将其称之为诊断试验中的“双盲设计”，其意义在于保证实验结果的准确性。

试想，如果坐诊医师在诊断疾病时参考了患者的NT-proBNP或MR-proANP检查结果，则很有可能会将一些“本不是心衰，但是NT-proBNP或MR-proANP水平较高”的受试对象误判为心衰；或者将一些本来是心衰，但是NT-proBNP或MR-proANP水平较低的患者误判为非心衰。这种设计会在一定程度上夸大NT-proBNP或MR-proANP的诊断价值。

如果待评价手段的实验室标志物，临床资料是否对待评价手段执行者(检验师)设盲可能对结果的影响不是很大，毕竟最终是靠仪器检测得出的客观结果，而不是靠待评价手段执行者的主观结论。但如果待评价实验室一些量表，或者需要主观判断的实验室测试（比如、免疫组化、免疫沉淀），那是否设盲的对结果的影响就十分大了。

以免疫组化为例，如果报告免疫组化结果的实验室检验师预先知悉了患者的临床资料，则在进行组化结果判断的时候无法做到客观公正，会有意无意地将结果往疾病或方疾病方向判读，最终夸大免疫组化的诊断性能。

总之，双盲设计是诊断试验设计中最为重要的一环。纵观国际上高水平的诊断准确性试验，不论待评价手段是主观检查还是客观检查，都采用了双盲的设计。

3.公平的比较环境才能得出可靠的结论

在部分诊断准确性试验中，研究者的研究目的仅仅是比较两种或多种诊断手段的优劣。以本研究为例，其核心研究内容就是比较NT-proBNP和MR-proANP在呼吸困难人群中诊断心衰的性能。由于这是在同一队列人群中展开的比较，我们称之为 “头对头(head to head)”的比较，或者说直接比较。相应地，如果是在不同的人群中展开的比较，则为间接比较。

值得注意的是，在本研究中，除了检测NT-proBNP和MR-proANP以外，研究者还检测了另一个心衰指标BNP。但为何作者不拿BNP与NT-proBNP或MR-proANP比较呢？这里牵涉到一个实验设计的问题。BNP的检测并未对负责诊断的临床医师设盲，而NT-proBNP以及MR-proANP是对临床医师设盲的，如果直接比较BNP与NT-proBNP或MR-proANP，这就是一种不“公平”的比较，因为BNP会先入为主地影响临床医师的诊断，但是NT-proBNP或MR-proANP不会。当然，NT-proBNP和MR-proANP都是对临床医师设盲的，所以他们之间的比较是可以进行的。

两种诊断手段的比较类似于法庭上原告与被告的较量，一定要考虑“公平”，最核心的问题就是：原告或被告绝对不能先入为主地影响法官的判断，换而言之，如果是比较两种诊断手段，那么任何一种诊断手段都不能先入为主地影响临床医师的最终诊断。

比如，有研究比较了类风湿因子(RF)和抗波形蛋白抗体(抗MCV抗体)对类风湿关节炎的诊断价值。众所周知，RF是十分成熟的类风湿关节炎诊断标记物，且早已被列入类风湿关节炎诊断标准。相比之下，MCV并不是类风湿关节炎的诊断标准之一。在此大背景下，比较RF与抗MCV抗体的诊断价值显然有悖公平原则，结果当然也是不可靠的。

4.诊断试验不能满足于比较，

而应该满足于提供额外诊断价值

总体来说，诊断试验分为很多个层次^[5-6]。第一层次是评价单个待评价实验的诊断价值，比如：评价MR-proANP在呼吸困难人群中诊断心衰的价值。这种实验设计最大的缺陷在于“就事论事”，没有考虑MR-proANP和其它成熟的手段相比是否还存在优势，因此研究结论的临床价值并不是很高。第二层次是比较几种诊断手段的优劣，确定临床实践中到底哪一种方法最好。比如：比较NT-proBNP和MR-proANP在呼吸困难人群中对心衰的诊断价值。这种实验设计虽然较第一层次有了一定的提高，但是仍然不能满足临床需要。

很显然，NT-proBNP和MR-proANP是完全可以同时检测的。因此，临床医师可能并不关心NT-proBNP和MR-proANP孰优孰劣，而是关心二者联合诊断是否有助于提高总体诊断准确性。在联合诊断中，总体诊断效率并不是单个手段诊断效率的简单叠加。因为各种诊断所提供的诊断信息会有一定的重叠。如果我们分析NT-proBNP和MR-proANP的相关性就会发现，其实二者是正相关的。换而言之，他们所提供的诊断信息有部分是重叠的。一个极端的假设，如果NT-proBNP和MR-proANP完全正相关(相关系数为1)，那二者提供的诊断信息就是完全重叠的，没有必要进行联合诊断。

评价各个诊断手段能否互补，或者说明确多个手段的联合诊断效率，就是诊断实验的第三个层次。当然，第三层次还不是诊断实验的最高层次，因为其仅仅考虑了几个诊断手段。疾病的诊断往往是建立在症状、病史、体征以及诊断手段基础上的。比如同样是呼吸困难的患者，如果有的患者此前曾经患有下肢深静脉血栓，那医生可能会怀疑造成呼吸困难的原因是肺栓塞；如果有的患者有急性心肌梗死病史，那医生可能会认为患者发生急性冠状动脉综合征的概率会高一些。

因此，诊断实验的核心是评估某一诊断手段能否提供常规临床信息(病史、体征、体格检查结果)所不能提供的诊断信息。为了论证这一问题，常用的方法有两种：一种是利用已有的临床信息建立logistic回归方程，并利用c-statistics、净重分层指数(NRI)和综合改良区分度(IDI)等统计学方法进行论证^[7]；这种方法的缺点是所需要的样本量较大，且是将复杂多变的临床问题转化为生硬的统计学问题，结论在临床上难以推广。

另一种就是本文采用的诊断信心评分，也就是文章中提到的“心衰概率评分”。很显然，基于常规的资料也能对心衰进行诊断，且诊断效率还较高（曲线下面积为0.90），但本文作者证实了，如果在心衰概率评分的基础上再加MR-proANP，则曲线下面积可以达到0.96。换而言之，也就是证实了MR-proANP可以提供病史、体征、体格检查和BNP所不能提供的诊断信息。这个结论十分重要，因为这一结论直接告诉临床医师：在呼吸困难的患者中，如果引入MR-proANP诊断心衰，会提高总体诊断准确性。

诊断准确性试验还有更高的层次，即论证引入一个新的诊断手段能否改善患者预后^[8]。这类研究在本质上属于随机对照试验，已经跳出了传统的诊断试验的范畴，在此就不展开赘述了。

结束语

本文以发表在J Intern Med上的一篇文章为例，浅析了如何设计严谨的诊断准确性试验。实际上，国际上关于诊断准确性试验已经有了较为公认的质量评价工具，即QUADAS-2^[9]。本文中所提及的一些实验设计问题在，在QUADAS-2中早有体现。对我们而言，只有深刻领会QUADAS-2工具中提及的试验设计要点，才可能设计出严谨的诊断实验，才可能发表高水平的诊断准确性论文。

与队列研究和多数随机对照试验相比，诊断准确性试验的特点是：

容易上手：因此多数情况下不需要对患者进行随访，只需要知道最终的诊断结果；
容易量产：如果建立一个基线血清标本库的话，就可以发表系列论文了，因为基于这些血清可以检测很多新颖的心衰标记物，每个标记物的诊断价值都是一篇不错的论文。

参考文献：

Potocki M, Breidthardt T, Reichlin T, Hartwiger S, Morgenthaler NG, Bergmann A, et al. Comparison of midregional pro-atrial natriuretic peptide with N-terminal pro-B-type natriuretic peptide in the diagnosis of heart failure. J Intern Med. 2010;267:119–29.
Morgenthaler NG, Struck J, Thomas B, Bergmann A. Immunoluminometric assay for the midregion of pro-atrial natriuretic peptide in human plasma. Clin Chem. 2004;50:234–6.
胡志德, 仲人前. 诊断准确性试验的偏倚来源及其控制. 临床与病理杂志. 2015;35: 177-183.
胡志德, 邓安梅. 开展实验室诊断试验研究值得注意的几个问题. 检验医学.2013;28(6): 551-555.
Linnet K, Bossuyt PM, Moons KG, Reitsma JB. Quantifying the Accuracy of a Diagnostic Test or Marker. Clin Chem. 2012;58:1292–301.
Moons KG, de Groot JA, Linnet K, Reitsma JB, Bossuyt PM. Quantifying the added value of a diagnostic test or marker. Clin Chem. 2012;58:1408–17.
Pencina MJ, D’Agostino Sr. RB, D’Agostino Jr. RB, Vasan RS. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond. Stat Med. 2008;27:112–57.
Bossuyt PM, Reitsma JB, Linnet K, Moons KG. Beyond diagnostic accuracy: the clinical utility of diagnostic tests. Clin Chem. 2012;58:1636–43.
Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med. 2011;155:529–36.

本文作者：胡志德

胡志德，医学博士。内蒙古医科大学附属医院检验科医生。长期从事检验医学研究，近五年来先后以第一作者、共同第一作者或通讯作者的身份发表SCI论文三十多篇，半数论文发表在Clinical Chemistry and Laboratory Medicine、Clinica Chimica Acta、Clinical Biochemistry、Annals Clinical Biochemistry等检验医学主流杂志上。论文影响因子共计60余分，在Webof science数据库中被BMJ、Thorax等杂志引用300余次。目前担任Annals Translational Medicine和Journal of Laboratory and Precision Medicine两本杂志的executive editor、Journal of Thoracic Disease的Section editor、临床与病理杂志青年编委，医学研究与发表杂志编委。曾应邀为Clinical Genetics、Critical Reviews in Clinical Laboratory Sciences、Translational Cancer Research、Medical Science Monitor，Journal of Clinical and Laboratory Analysis、Postgraduate Medical Journal、国际检验医学杂志、检验医学、临床与病理杂志、分子诊断与治疗杂志、国际检验医学杂志审稿。作为项目负责人主持国家自然科学基金一项。《傻瓜统计学》、《聪明统计学》和《疯狂统计学》主编之一。

AME科研时间

爱临床，爱科研，也爱听故事，即刻关注?

排版编辑：张晗 AME Publishing Company

责任编辑：严斯瀛 AME Publishing Company

点击

阅读原文

了解AME