臨床医学論文の読み方-2
 

どのような結果か?

研究結果をどのような指標で表すかについては近年次第に共通の指標が用いられるようになってきているのでこれらの指標がどのようなものか理解しておく必要がある。また、いくつかの論文を読み比べる場合にも同じ指標が使われていると比較が容易になる。またこれらの指標が記載されていない場合でも自分でそれを算出することも可能である。

コホート研究あるいはケースコントロール研究

コホート研究もケースコントロール研究も疾患あるいはある病態の原因を探る目的で行われる。つまり、予知因子(Predictor Variable,予知変数あるいは危険因子Risk Factor)と結果因子(結果変数Outcome Variableあるいは転帰)の関連がどれくらい強いかを明らかにする目的で行われると考えて良い。コホート研究では予知因子のある群からは高率に疾患が発症し予知因子のない群からの疾患の発生が少ないほど関連が強いと言える。この関連を表す指標がリスク比である。ケースコントロール研究では疾患のある群でその予知因子のある割合が高く,疾患のない群で予知因子のある割合が低いほど関連が強いといえる。この関連を表す指標がオッズ比である。いずれの場合にも値が大きいほどその予知因子がその結果因子により強く関係していることが言える。もし、値が1.0であれば、まったく関係がないことになり,1より小さな値の場合にはその予知因子があるとその結果因子が起きにくいことになり,危険因子ではなく保護的な因子であるということになる。

コホート研究は時間軸における解析の向きが過去から未来への方向,つまり前向きであり,ケースコントロール研究では現在から過去へ、つまり後ろ向きであることをもう一度思い出しておこう。

リスク比 Risk Ratio、相対危険度 Relative Risk
コホート研究において危険因子を持つ群つまり実験群における結果因子(Outcome、転帰)が起きた人の割合を、危険因子を持たない群、すなわち対照群における結果因子が起きた人の割合で割り算した値である。つまり、危険因子があると何倍その結果因子が起きやすくなるかを表す指標である。従って、実験群で1000人に10人がある疾患を発症し、対照群で1000人に1人発症した場合にはRR=(10÷1000)÷(1÷1000)=10となり、実験群で1000人に100人がある疾患を発症し、対照群で1000人に10人発症した場合にもRR=10となる。RRは同じ値になり個人レベルの危険因子の影響は同じと言えるが、人口レベルでは後者の方が影響を受ける絶対数が大きいのでその危険因子の健康に及ぼす影響は大きい。

表.1リスク比
 
結果因子(+) 結果因子(‐)
危険因子(+) a b
危険因子(‐) c d

Risk Ratio = [a/(a + b)]/[c/(c + d)]

リスク比に対して寄与リスクAttributable Riskは危険因子を持つ群における結果因子が起きた人の割合から危険因子を持たない群、すなわち対照群における結果因子が起きた人の割合を引き算した値であり、どれくらいの割合の人がその危険因子の影響を受けるかを知ることができる。リスク差Risk differenceとも呼ばれることがある(Excess Riskとも呼ばれる)。上の例では前者の場合,AR=1 - 0.1 = 0.9%、後者の場合AR=10 - 1 = 9%ということになる。

また、人口レベルでの指標として人口寄与リスクPopulation Attributable RiskやPopulation Attributable Fractionが用いられる。前者はARに人口を掛け算したものであり,後者はそれをさらにその疾患の発生率で割り算したものである。つまり、その疾患の中でその危険因子によって発症したと考えられる割合を示す。

また、Coxの比例ハザードモデル Cox's proportional hazards model などによる多変量解析で複数の危険因子の結果因子の発生に対する影響を解析した場合にはそれぞれの因子についてリスク比(ハザード比 Hazard Ratio)が算出されるが、このリスク比もそれぞれの危険因子が何倍その結果因子の発生を高めるかについては正しい指標である。しかし、複数の危険因子が全体としてどれくらいその結果因子の発生に寄与しているかはそれだけでは知ることができない。つまり、検討された危険因子以外により強力な因子が存在している場合には、その因子を解析項目に含めることによって、まったく異なる結果が出てくる可能性がある。それぞれの因子の回帰係数からリスクスコアを算出して、複数の因子の全体とし作用した場合の結果因子の発生する確率を経過時間ごとに求めることが可能であるが、そこまで検討している論文は非常に少ない。実際にはリスクスコアを求めてどれくらい予知が可能かを明らかにすることは重要なことである。なおCoxの比例ハザードモデルはKaplan-Meier法などの生存分析と一緒に使われることが多く、エントリー時点での危険因子と打ち切り例(Censored Case)を含む生存期間あるいは発症までの期間の関連を解析する多変量解析の一つである。ある時間経過の中で生起する現象を結果因子として観察する場合には生存分析とCoxの比例ハザードモデルを用いて解析しなければならない。すべての対象者で結果因子が起きるまで待つことはできないし、それぞれエントリーの時点が異なるので,ある一定期間で区切って発生率を求めるような方法を適用することはできない。打ち切り例を扱えるこれらの統計学的手法を用いなければならない。

リスクスコアRはCoxの比例ハザードモデルによって計算される各変数に対する係数Coefficent(β)が得られれば算出することができる[1]。

R=β1・X1 + β2・X2 + β3・X3 + ...

全症例に対してリスクスコアを求めて,その平均値を算出し,それをR0とする。t年時における平均生存率(平均発生率)を生存曲線から求めて,それをS0(t)とすると個々の症例のt年時における生存の確率(発生の確率)S(t,X)は次式で算出できる。

S(t,X) = {S0(t)}exp(R - R0)

オッズ比 Odds Ratio
ケースコントロール研究において結果因子を持つ群(疾患群)における危険因子を持つ人の割合を危険因子を持たない人の割合で割り算した値,すなわちオッズを、結果因子を持たない群(対照群)における危険因子を持つ人の割合を危険因子を持たない人の割合で割り算した値,すなわちオッズで割り算した値。ケースコントロール研究では直接リスク比を求めることはできないので、危険因子により結果因子がどれくらい起きやすくなるかを示す指標としてオッズ比が算出される。特に対照群の例数を多くするとオッズ比はリスク比に値が近似してくる。ケースコントロール研究では対象群の人数は任意に決められるので,結果因子を持つ群と結果因子を持たない群のそれぞれの群の危険因子を持つ人を合計して、その中で疾患の発生した人の割合を求めることはできないので、このようにオッズ比を算出せざるを得ないのである。この場合リスク比の場合と同じくオッズ比が高いほどその危険因子とその結果因子の関連が強いと言うことが言える。

表.2オッズ比
結果因子(+) 結果因子(‐)
危険因子(+) a b
危険因子(‐) c d

Odds Ratio = [a/(a + c)]/[c/(a + c)]/[b/(b + d)]/[d/(b + d)] = (a/c)/(b/d) = (a x d)/(b x c)

ケースコントロール研究の場合もコホート研究の場合も予知因子と結果因子の関連が強いほど因果関係にせまることができる。特にコホート研究の場合には先に予知因子をとらえその後におきる結果因子を観察するので,因果関係をより強く主張できることになる。このような事象Eventの生起の時間的関係だけでなく,その関連の強さ,複数の研究で指示されること,予知因子と結果因子の間に量的関係が認められること,生物学的に説明が可能であることによってさらに因果関係を強く主張することができる。

リスク比もオッズ比もいわゆる点推定Point Estimateであり、平均値を表している。したがって、ある誤差を伴っており,95%信頼区間(95% Confidence Interval)を一緒に示すことになっている。95%信頼区間はもしバイアスがなければ,つまりランダムなサンプルであれば,母集団の平均値、つまり真の平均値が95%の確率でその範囲に入るということを示している。リスク比やオッズ比の場合、もし、95%信頼区間が1.0をはさんでいる場合にはそれは有意な因子とはなり得ない。もしリスクが高くなるような因子であれば95%信頼区間の下限が1を超え,リスクを下げるような因子であればその上限が1よりも小さな値でなければならない。95%信頼区間の上限と下限の値は95%信頼限界(Confidence Limits)と呼ばれる。

95%信頼限界 = 平均値 ± 1.96 x(標準偏差/√n)

nはサンプル数

従って,サンプル数が大きいほど、ばらつきが小さいほど95%信頼区間は狭い範囲になり、統計学的パワーも大きいと言うことになる。従って,95%信頼区間の大きなデータを見たときには症例数が不充分か、測定値のばらつきが大きいと考えれる。なお、率ではなくて平均値の差を問題にしている場合には95%信頼区間が0をはさんでいる場合には有意差があるとは言えない。

RCT:

RCTはその医学的介入Interventionあるいは治療によって、結果因子の発生がどれくらい低減するかを判定することになる。医学的介入以外の点では差が無い群間で比較できるようにするために,無作為化が行われる。予知因子としての介入が人工的に加えられているコホート研究ということができる。従って,基本的にはコホート研究と同じである。その結果を表す指標として以下のものが用いられる[2]。

Relative Risk Reduction (RRR)相対リスク減少率
対照群における結果因子の発生率と治療群における結果因子の発生率の差を対照群における結果因子の発生率で割り算した値である。すなわち,治療することによってある転帰がどれくらい抑えられたかを減少率で表したものである。連続変数の場合には平均値の減少率として算出する。

Absolute Risk Reduction (ARR)絶対リスク減少率
これは対照群における結果因子の発生率と治療群における結果因子の発生率の差そのものである。連続変数の場合には平均値の差を算出する。

RRRとARRは値が大きいほど有効な治療法ということが言える。

メタ分析Meta-analysisで複数の研究のデータを統合・合成して解析する場合には相対リスク、オッズ比などの比のデータ,あるいは絶対リスク減少率などの実験群と対照群の差のデータと95%信頼区間を算出して、データを合成する。たとえば,General Variance-based MethodsではARRに(1/分散)をかけ算して合計し,それを(1/分散)を合計した値で割り算して,ARRを合成する。95%信頼区間は(1/分散)を合計した値の逆数の平方根に1.96をかけ算して求める。なお、General Variance-based MethodsはFixed Effects Modelである。それぞれの研究結果に同質性があると判断された場合にはRandom Effects ModelとFixed Effects Modelは同じ結果となるのが普通である[3]。両者の違いを簡単に述べておくと,Fixed-effects modelでは推側inferenceは実際に行なわれた研究により条件づけられ,過去に起きた事として解析する。「この治療法あるいは危検因子はこれらの研究において平均として効果があったのか」を問題にする。一方Random-effects modelではそれぞれの研究はあるーつの仮想母集団からのランダムサンプルであると仮定して解析を行なう。「この治療法あるいは危検因子は効果がある(will)であろうか」を問題にする。後者の方がより保守的でありCIが広く有意差が出にくくなる。

Number Needed to Treat (NNT)
NNTはAARの逆数、すなわちAARで1を割り算したものである。もしARを%で表した場合には100を割り算した値となる。すなわち、その治療法による効果を確認するには何人を治療する必要があるかを表しており,値が小さいほど有効な治療法となる。つまり、「一つの結果因子の発生を抑制するのに必要な患者さんの数」である。あくまで、RCTの結果から求められる指標であるから,プラセボあるいは従来の治療と比較した場合にその治療法がさらに一つの結果因子を抑制するのに必要な患者さんの数であり,もしプラセボで30%有効で,ある薬剤で50%有効な場合には1÷0.2=5になるが、プラセボで1%,ある薬剤で21%有効な場合でも同じく5になる。しかし、実際には前者の場合その薬剤を投与された患者さんの半分で結果因子が起きなくなるが、後者の場合には5分の1の患者さんでしか結果因子が抑制されるだけであり,異なる印象を与えるはずである。しかし、治療の効果をいろいろな治療法で比較する場合には見かけ上の有効率だけを比較するのではなくNNTを用いる必要がある。

予後:

生存SurvivalをエンドポイントEnd Pointとした研究の場合には生存分析が用いられる。また、癌の発生率のようなある病態の発生率を解析する場合にも生存分析が用いられる。これらはエントリーポイントがばらばらで、すべての症例で結果因子が発生していない(打ち切り例)状況で解析を可能にする方法である。それぞれの症例がどちらの群に属するか,エントリーポイントから結果因子の発生時点までの時間の長さ、そして打ち切りか結果因子が生じているかどうか(解析の時点で結果因子の発生していない例と途中でフォローアップが中断した例は打ち切り例Censored Caseとする)の3項目を含むデータを解析する。

医学の分野ではKaplan-Meier法がもっぱら用いられている。2群間すなわち、危険因子を持つ群と持たない群、あるいは治療群と対照群の間で生存に有意差があるかどうかはLogrank法またはGeneralized Wilcoxon法を用いて解析するのが一般的である。

生存曲線は結果因子が発生した時点で下がる階段状に描かれるが,右側の方は横向きの直線になり、信頼度が低下する。つまり、経過が長い症例のデータは誤差が大きくなる。生存曲線は一本の線であるが,実際にはその上下に誤差を伴っていると考えるべきであり,95%信頼区間を算出することも可能である。

平均余命Life Expectancy (LE)はDeclining Exponential Approximation of Life Expectancy (DEALE)という方法を用いて算出することができる[4,5]。DEALEは年間死亡率が一定であり,生存が指数関数的に低下して行くことを仮定した方法で,個々の患者さんに対して適用することができ、平均的な生存期間を求めることができる。

疾患特異的死亡率Disease-Specific Mortalityをまず算出して,その逆数を計算すると平均余命が求められる。疾患特異的死亡率は対照群の生存曲線が記載されている論文であれば,疾患群と対照群の平均年間死亡率を求めて,その差を算出することにより求められる。もし、対照群が含まれていない論文の場合には,疾患群のエントリー時点での平均年齢を求め,その年齢の日本人における平均余命を厚生省の人口動態調査生命表から拾い出して,その逆数を算出し、それを平均年間死亡率とする(厚生省のホームページではExcelの表をダウンロードできるようになっている)。すなわち、平均余命と年間死亡率の間の関係は次のようにみなす:平均余命=1/年間死亡率

平均年間死亡率 = (-1/t) x ln(t年後の生存割合)

たとえば,ある疾患に罹患した実験群のエントリー時に100人の患者さんが5年後に60人生存していた場合には5年後の生存割合は0.6となり、その自然対数(ln)は-0.51083となり、平均年間死亡率は(-1/5) x (-0.51083) = 0.102となる。もし、対照群では100人中95人が生存しているとする,同様に計算すると0.0103となる。実験群と対照群の平均年間死亡率の差=0.102 - 0.0103 = 0.0917となりこれが疾患特異的死亡率になる。

次にそれぞれの患者さんの平均余命を計算するが,それには患者さんの年齢における平均余命を知る必要がある。そして、その逆数がその年齢における平均年間死亡率になるので,それを疾患特異的死亡率に加算する必要がある。加算したらその逆数を求めると,その患者さんの平均余命になる。たとえば日本人男性60歳の平均余命は20.28年なので、1/20.28 = 0.0493がその年齢の日本人男性の平均年間死亡率となる。するとこの疾患に罹患している60歳の日本人男性の平均年間死亡率は0.0917+0.0493=0.141となり、平均余命は1/0.141=7.1年となる。

さらに他の疾患にも罹患していた場合にはそれぞれの疾患が互いに影響しないと仮定することができれば,それぞれの疾患特異的死亡率を加算すれば良い。

患者さんの年間死亡率 = その年齢の年間死亡率 + 疾患特異的年間死亡率 +もう一つの疾患特異的年間死亡率 + ...

患者さんの平均余命 = 1/患者さんの年間死亡率
 

診断法に関する研究

診断法に関する研究ではその診断法がどれくらい正確にある疾患を捉えることができるかが問題にされる。それは、疾患のある患者さんの群でその検査を施行するとどれくらいの割合の患者さんで陽性の結果が得られ、なおかつ疾患の無い対照群ではどれくらい陰性の結果が得られるかということが問題にされる。陽性率,偽陽性率という言葉はだれでも理解できると思うが,これら以外に以下の用語を理解しておく必要がある。疾患群をどのように設定するかというとその時点での"Gold Standard"とされている診断法で選択するしかない。従って,なにを"Gold Standard"として用いたかに着目する必要がある。一方対照群はまったくの健常者を選択したのか,別の疾患の群を選択したのかも重要な点である。その診断法を施行した場合に陰性の結果が出るような群とは何かということと、実際に臨床の場でその検査が利用される状況はどうなのかをよく考える必要がある。年齢、性別などのマッチングが行われているかどうかもチェックしなければならない。

感度 Sensitivity
疾患のある群で検査法の結果が陽性に出る割合(%)、つまり陽性率のことである。100から感度(%)を引き算すると偽陰性率になる。

特異度 Specificity
疾患の無い群、つまり対照群において結果が陰性に出る割合(%)である。100から特異度(%)を引き算すると偽陽性率になる。

感度と特異度が高いほど診断における有用性が高い検査ということになる。いずれも100%であれば100%確実に診断が可能になるが残念ながら、そのような検査法は存在しない。

尤度比 Likelihood Ratio
疾患がある場合にどれくらい結果が陽性に出やすいかを表す指標である。陽性率つまり感度を偽陽性率つまり100から特異度を引き算した値で割り算した値である。LRは数値データをとる検査についても適用することが可能である。すなわち、ある一定の値で区切って,疾患群におけるその区分に入る人の割合と対照群におけるその区分に入る人の割合の比を求めるとそれがLRになる。すなわち、疾患群と対照群でオーバーラップがある場合にその範囲に検査結果が入った場合にLRを用いることによって、検査後確率を下記の式で求めることができる。
 

 表3:Sensitivity, Specificity, Likelihood Ratio
疾患あり 疾患無し
検査結果陽性 a人 b人
検査結果陰性 c人 d人
Sensitivity = a/(a + c) x 100 (%)   False negative rate = c/(a + c) x 100 (%)

Specificity = d/(b + d) x 100 (%)   False positive rate = b/(b + d) x 100 (%)

100 - Sensitivity = False negative rate

100 - Specificity = False positive rate

Likelihood Ratio = [a/(a + c)] / [b/(b + d)]
 

これらの指標はその検査法の診断能Diagnostic Performanceをあらわす指標といえる。つまり、感度、特異度ともにできるだけ100%に近い検査が診断能が高いといえる。しかしそれだけではない。実際にはこれらの指標をどのように使うかというと,検査を行う前に考えられたある疾患の確率がその検査を施行して結果が得られたときにどのように変化するかということを計算するのに用いることができる。すなわち陽性適中率Positive Predictive Value(PPV)と陰性適中率Negative Predictive Value(NPV)という指数の算出に用いられる。PPVは陽性の結果が出た場合のその疾患である(Rule In)確率を示し,NPVは陰性の結果が出た場合のその疾患ではない(Rule Out)確率のことである。最近は多くの論文でこれらの指数について記載してある。ここで注意しなければならないのは,PPVとNPVは検査前確率Pretest Probability(事前確率)と呼ばれるその検査法を施行する前のその疾患である確率によって異なる値になると言うことである。従って,論文で記述されている値はその研究が対象とした疾患群と対照群の場合の値であり,そのまま一般化することはできない場合もある。以下の式で算出しなければならない。

Positive Predictive value (%)
= Pretest probability x Sensitivity/100/{Pretest probability x Sensitivity/100 + (100 - Pretest probability) x (100 - Specificity)/100}

Negative Predictive value (%)
= (100 - Pretest probability) x Specificity/100/{(100 - Pretest probability) x Specificity/100 + Pretest probability x (100 - Sensitivity)/100}

PPVはその検査結果が陽性だった場合のその疾患である確率であり、NPVはその検査結果が陰性であった場合のその疾患で無い確率である。

PPVをLikelihood Ratioを用いて計算することもできる。この場合には検査前確率をオッズに変換し、それにLikelihood Ratioを掛け算して,検査後オッズを求め,それを再度確率に変換すればよい。オッズになれていれば最初からオッズとLikelihood Ratioを用いても良い。

1. Pretest Odds = Pretest probability/(1 - Pretest probability)

*Probabilityを%で表す場合は1ではなく100から引き算する。

2. Posttest Odds = Pretest Odds x Likelihood Ratio

3. Positive predictive value = Posttest Odds/(1 + Posttest Odds)

*%で表す場合は100をかけ算する。

ところで,ある疾患を疑っていて,検査を施行したところ陰性の結果が出て,その疾患の確率が下がってしまうような場合にはどのように計算すれば良いのであろうか。その場合には上の表から Likelihood Ratio(-) = [c/(a + c)] / [d/(b + d)] を算出してこれにPretest Oddsをかけ算し、それを確率に変換すれば良い。つまり陰性の結果が出た場合のその疾患である確率を求めることができる。

さて、いくつかの検査法を同時に施行してその感度、特異度を直接比較した研究は少ない。通常はその時点での"Gold Standard"とされている診断法により疾患ありと診断された群と疾患無しと診断された群とで新しい診断法を施行してその感度、特異度を求める研究である。もし、新しい診断法がその時点での"Gold Standard"より優れた診断法であった場合にはその研究だけではそれを充分明らかにすることはできない。広く一般に用いられてから評価が定まることになるであろう。

多変量解析 Multivariable analysisまたはMultivariate analysis

生物学的な現象は一つの因子によって決まるよりも、複数の因子によって決まることがほとんどである。従って,ある結果因子に対して何が規定因子なのかを調べる場合にも、複数の因子を同時に解析することが普通に行われるようになってきた。その一つの手法が既に述べたコックス比例ハザードモデルである。この方法は生存分析とともに用いられ,病態の発生,生存,再発など時間の経過の中で起きる事象を分析するのに用いられる。

ロジスティック回帰分析Logistic Regression Analysisは時間経過を問題にする必要が無い場合で,応答変数Yが2値を取る名義変数の場合に用いられる。説明変数は数値変数でも名義変数でもどちらも扱うことが可能であり,近年医学の分野で広く用いられるようになってきた。ロジスティック回帰分析では複数の説明変数が全体としてどれくらい応答変数を説明できるかを示す,決定係数(Coefficient of Determination, R-square)を求めることができる。決定係数は少なくとも0.3以上でないとあまり意味が無いとされている。決定係数が1に近づくとほとんどがそれらの説明変数で規定されていることが言え,実際にそれぞれの症例の変数を代入して応答変数がどちらかをとる確率を計算するとほとんど適中するようになる。その確率は次式で計算され,これが0.5を超えればどちらかの応答変数であると判断することができる。

Probability = 1/{1 + exp[-(b0 + b1X1 + b2X2 + b3X3 + ...)]}

これら多変量解析を用いるとStudent's t-test、Wilcoxon rank-sum test (Mann-Whitney U-test), ANOVA, Chi-square testなどの単変量解析Univariate AnalysisまたはUnivariate Analysisとはまったく違うスコープが見えてくる。また、交絡因子の影響をかなり調節することもできるので,独立した有意な因子だけを拾い上げることができる。

一般的に多変量解析を適用するには解析する因子の約10倍の症例数が必要とされている。

(1999.4.28)続く
神奈川歯科大学 内科教授 森實敏夫



[文献]

[1] Grambsch PM, Dickson ER, Wiesner RH, Langworthy A: Application of the Mayo primary biliary cirrhosis survival model to Mayo liver transplant patients. Mayo Clin Proc 1989;64:699-704.

[2] Laupacis A, Sackett DL, Roberts RS: An assessment of clinically useful measures of the consequences of treatment.  N Engl J Med 1988;318:1728-1733.

[3] Petitti DB: Meta-analysis, decision analysis and cost-effectiveness analysis: Methods for quantitative synthesis in medicine. 1994, Oxford University Press, New York, NY, USA.

[4] Beck JR, Kassirer JP, Pauker SG: A convenient approximation of life expectancy (the "DEALE"). I. Validation of the method. Am J Med. 1982;73:883-8.

[5] Beck JR, Pauker SG, Gottlieb JE, Klein K, Kassirer JP: A convenient approximation of life expectancy (the "DEALE"). II. Use in medical decision-making. Am J Med. 1982;73:889-97.




[Return to 医学統計学講義] [Return to Home Page]