予後
診断がつくまでの流れを統計学的にはどのように考えるかについて述べた。診断をつけるということもその患者さんの未来を変えることになるが、治療するということもその患者さんの未来を変えることになる。
もし治療を受けられなかった場合にはどのような経過をたどるのか。診断がついても効果的な治療法が無い場合にどのような経過をたどるのか。まず、このような治療をしなかった場合の予後が分からなければ、治療法がそれをどのように変えるのかを知ることが出来ないことを理解する必要がある。つまり原則的には、無作為臨床試験 Randomized Clinical Trial (RCT)*によって、治療群と対照群の予後を比較しないと、その治療法の有効性を明らかにすることは出来ない。RCTでは治療群と対照群がその治療を受けるという点以外では条件が同じになるようにするために、患者さんを無作為に治療群と対照群に割り付ける。これ以外に治療を受けるという点以外の条件が同じにそろえることは出来ない。別の言い方をするとそれぞれの患者さんが治療群に割り付けられるか、対照群に割り付けられるかが同じ確率で起きるようにするということである。
*RCTはRandomized Controlled Trial 無作為対照試験という表記をされることもある。
RCT
RCTはコホート研究の一つと考えることも出来る。Interventionが加えられた群とそれが無い群はそれ以外の点で同じ条件であって、その2群を前向きにフォローアップして効果がある率を比較するのであるから、Interventionがコホート研究のリスクファクターに相当する。コホート研究と異なるのはInterventionが自然発生的に加えられるものではなく、人為的にコントロールされて加えられるという点である。従って、実験的研究 Experimental Studyとも呼ばれる。
牛乳を飲むことが骨粗鬆症の防止に役立つかどうかを調べようとした時に、RCTを計画して、無作為に分けた2群で片方には毎日コップ一杯の牛乳を飲んでもらい、残りには牛乳の飲用をしないようにして、5年後の骨密度の変化を調べるということも可能である。この場合には、毎日コップ一杯の牛乳を飲むということは人為的にコントロールされており、それ以外の点で2群は差が無い。一方、まったく自然の状態でも毎日コップ一杯の牛乳を毎日飲む人もいるし、牛乳を飲まない人もいるから、一般人口からこれら2群を集めて、同様に5年後の骨密度の変化を調べることも可能である。これはコホート研究になる。一見同じ研究のように思えるが、後者ではさまざまなバイアスが入る可能性がある。これら2群が牛乳を飲む飲まないという点以外でも異なる可能性があるからである。例えば、牛乳を毎日飲むという人は健康に関する知識が豊富で、それ以外にも定期的な運動をしたり、他の食事にも気を付けている人が多いかもしれない。そうすると、それだけでも骨密度の減少は軽くなると予想される。つまり、無作為に対象者を2群に割り付ける方法しか背景因子を合致させる方法はないということが理解される。
しかし、RCTを計画し、施行する前の段階で数人の患者さんで劇的な効果が認められた様な場合には、RCTを施行することは対照群に割り付けられた患者さんが不利益を被るかもしれないという問題が起きる可能性がある。そのためにはCross-overによって、途中で治療群と対照群を入れ替える方法を採用することも考慮しなければならない。
生物学的に意味があると思われたり、疾患のメカニズムから効果が期待されたり、動物実験で効果が認められても、実際にRCTで効果が認められないこともある。つまり、医学の分野では最終的に人間を対象にして、効果があるかないかを明らかにする必要が常にあるのである。
どの様な治療法でも、患者さんによく説明をして、Informed Consentを得ることは必須である。「その治療法が効果がある可能性が高いが、本当に効果があるかどうかはまだはっきり分かっていない。そのためにプラセボを飲む人と実薬を飲む人が分からないようにして調査する必要がある。あなたが、どちらに割り付けられるかは無作為に決めますが、協力していただけますか。」というように説明して納得してもらう必要がある。
Hawthorne effect
新しい治療を受けていることが分かると、患者さんは医師を喜ばせよう、担当医がこの研究に成功するといい、という気持ちが働き、また、自分にいい結果が起こることを期待するのは当然である。また、医師の方も新しい治療法が従来の治療法より良い治療法になって欲しいという気持ちが働いてしまう。そのために、新しい治療法が優れているという結果が出る方へバイアスがかかってしまうことになる。これはHawthorne effectと呼ばれている。
臨床試験にはHawthorne効果以外にもさまざまなバイアスが混入する可能性がある。それらを少なくするためにMaskingマスキングあるいはBlinding盲検化がおこなわれる。これら二つの用語は同じ意味であるが、後者は差別用語的な受け取られ方をする可能性があり、マスキングの方が適しているかもしれない。どの治療を受けているのかが患者さんにも担当医にも分からないようにすれば(Double-blind)一番客観的に効果の判定が出来るはずであるが、手術のように最初からそれが不可能な治療法もあるし、形も味もそっくりなプラセボPlaceboを用いても、その効果からあるいはなんとなく、患者さんにも担当医にも分かってしまうこともある。マスキングをしない臨床試験はオープンOpenあるいはオープン・ラベルOpen labelと呼ばれる。
マスキングは、1)患者さんを群別に割り付ける医師が患者さんの割付の時点まで次はどの群に割り付けるのかを知らないようにする、2)患者さんがどちらの治療を受けているのかが分からないようにする、3)主治医がどちらの治療をしているのかが分からないようにする、4)Outcomeを判定する医師がどちらの治療を受けているのかが分からないようにする、という4つのレベルで行わなければならない。
Outcome
何を指標にして予後つまり治療効果を捉えるのか。これも非常に重要な問題である。例えば、症状を緩和しても生存期間が短くなってしまっては意味が無い。つまり治療という介入 Interventionを行った結果 Outcomeを、あるいはエンドポイント End pointを何で捉えるかという問題である。( エンドポイントは最終的に目標とされるOutcomeのことを指して用いられる。)
たとえば、ジギタリスは心不全に効果があり、症状を改善するが、生存を延長する効果のないことが明らかにされた。つまり、見かけ上の症状が改善しても、最終的な生存という予後を改善することは出来ないことが明らかにされたのである。もちろんクオリティーオブライフQuality of Life を判定結果Outcomeとすれば良い場合もあるかもしれない。癌の治療では腫瘍縮小効果が認められれば生存が延長するだろうと、論理的には考えられるが、必ずしもそうではない事もある。肝細胞癌に対する塞栓療法TAEは腫瘍縮小効果は認められるが、ほとんどの研究が生存延長に関しては否定的な結果を出している。
つまり、重要なことは本当に意味のあるエンドポイントを追求するということである。たとえば、高血圧の場合には脳卒中の発生率の低下、冠動脈疾患の発生率の低下、そして生存の延長といったイベントをエンドポイントにして正確なフォローアップを続ける必要がある。正確なフォローアップという意味は、もし研究をスタートとした時点で追求するエンドポイントを明確に設定していないと、それが起きたことを見逃す可能性が高くなるということがあるからである。
生存分析 Survival Analysis
明確なエンドポイントを設定して予後を明らかにする場合でも、対象者全員がエンドポイントに達するまでフォローアップを続けることは時間がかかりすぎる。例えば、癌の治療法では対象者全員の生存期間を知るためには、全員が死亡するまで待つ必要があり、大変な時間がかかることになる。もし本当に有効な治療法であれば、研究対象になった患者さん以外にも早く使えるようにすべきであるから、出来るだけ結果が早く出る方が望ましい。
一方で、対象者が研究にエントリーする時点もバラバラである。さらに、フォローアップの途中で通院を止めたりする患者さんもいる。これらのデータを解析する手法が生存分析であり、医学では多くの場合 Kaplan-Meier法が使われる。
生存分析とは対象とする2つのイベント(event生起現象)の間の経過時間に基づくデータの評価に用いる統計手法である。フォローアップの開始時点entry timeがイベント1に相当し死亡あるいは疾患の発生などの時点がイベント2に相当する。イベント1とイベント2の間の経過時間がデータとなる。
つまり、それぞれの患者さんのエントリーポイントからエンドポイントまでの時間が解析の対象となる。そして、それぞれの患者さんがエンドポイントに達したか、それとも途中で打ち切り Censoredになったかによって、生存曲線を作成する。打ち切り例は解析を行う時点でまだエンドポイントに達していない人、つまり、Outcomeがまだ起きていない人のことで、途中で通院しなくなった人と、現時点で通院中だがエンドポイントに達していない人の両方が含まれる。打ち切り例ではもしかすると1ヶ月後にエンドポイントに達するかもしれないし、もっと先かもしれないが、打ち切りの時点までの生存率の計算には生存したものとして算入する。Kaplan-Meier法ではOutcomeが発生した時点毎に、生存率を計算する。つまり、その時間の幅の最初にOutcomeが起きていなかった人数を分母にして、Outcomeが発生した人を引き算した数を分子にして割り算する。その期間中に打ち切りになった例は無視されることになる。一つ前の時間の幅の生存率にその生存率を掛け算すると累積生存率を求めることが出来る。この累積生存率を時間を横軸にして階段状にプロットしたものが生存曲線である。
それぞれの累積生存率に対して、95%信頼区間を算出することが出来る。 従って、生存曲線は一本の曲線で描かれるが、実際には累積生存率の平均を表しており、ある幅を持った帯状のものを想像するようにすべきである。つまり、自分の診ている患者さんはその曲線上に乗るのではなくある誤差を伴った帯の中のどこかに位置するというように考えるべきである。
| 死亡発生時点 | 患者数 ni | 死亡数 di | 死亡率
qi |
生存率
pi = 100 - qi |
累積生存率 Si |
| 0 | 31 | 2 (打ち切り2例) | 0.06 (2/31) | 0.94 | 0.94 |
| 1 | 27 | 1 (打ち切り2例) | 0.04 (1/27) | 0.96 | 0.90 |
| 3 | 24 | 3 (打ち切り1例) | 0.13 (3/24) | 0.87 | 0.79 |
| 5 | 20 | 1 (打ち切り12例) | 0.05 (1/20) | 0.95 | 0.75 |
| 17 | 7 | 1 | 0.14 (1/7) | 0.86 | 0.64 |

ここでエンドポイントとかOutcomeとか言っているのは、たとえば死亡であったり、腫瘍の発生であったりする。 死亡の場合には累積生存率100%からスタートして、右肩下がりになる。累積発生率をプロットする場合には発生のない割合を表すようにプロットすると、同じ様に100%からスタートして、右肩下がりになる。その場合には縦軸が、たとえば、Percent of patients free form tumorと言うような表記がされる。逆に、100からその値を引き算して、累積発生率をプロットすれば、0%からスタートして、右肩上がりになる。 臨床医学では多くのOutcomeは発症であれ、再発であれ、治癒であれ、時間の経過の中で起きるので、単にその率だけを問題にするのではなく、時間の経過の中でどれだけの割合の患者さんに順次そのOutcomeが起きて行くのかと言うことが重要になる。
予後をある治療法が変えるかどうかを判定するには、治療群と対照群の生存曲線を求めて、それを比較することによって行われる。それには以下の方法が用いられている。
●Gehan test またはGeneralized Wilcoxon test
●Logrank test
●Mantel-Haenszel test
そして、これらの方法によって治療群と対照群で有意差が検出されればその治療法は予後を変えることが出来る、すなわち有効性があると判断される。
生存分析で注意が必要なのは、曲線の右側の方は誤差が大きく、また水平になると言うことである。フォローアップ期間の長い患者は少ないので母数が少なくなるため、そのようになってしまう。例えば、死亡をエンドポイントにすれば、フォローアップする期間が長くなれば、死亡する患者さんが増えて、母数が少なくなるのは当然である。従って、%ではなく、患者さんの実数を生存曲線と同時に表記する場合も多い。また、生存曲線の右側の方で2群を比べることは意味が無いことになる。
もし、時間経過が問題にならない場合、例えば、短期間でOutcomeが起きるような場合には生存分析を使う必要はない。しかし最終的なOutcomeつまり生存 Survivalを解析するには生存分析を使わなければならないので、すべての治療法の効果は生存分析によって解析する必要があるとも言える。特に経過の長い致死的な慢性疾患の場合には、最終的に生存を延長できる治療法かどうかを明らかにすることが重要である。
Intention to treat trial
RCTを治療群に割り付けられた患者さんが、必ずしも治療プロトコールに厳密に従うとは限らない。薬を飲み忘れたり、通院が不規則になったりして、研究開始時に決めた通りの治療を受けていない場合もある。その場合に治療群に割り付けられた患者さんはそのコンプライアンスは厳密に追及せず、その治療を受けたものとみなして、解析を行う方法が、Intention to treat trialあるいはManagement trialと呼ばれる。この場合には治療法の選択が正しいかどうかを問題にしているといえる。この方法の利点はフィールドで用いられた場合の状況に近いデータが得られるということと、ランダム化が当初行われた通りで崩されることがないということである。しかしながら、実際に効果に差があるとしてもそれを捉えにくくなるということが起きる。
一方、Explanatory trialと呼ばれる方法は、きちんとその治療を受けた患者さんだけのデータで解析を行う方法である。その場合には治療法そのものの効果を問題にしているといえる。もしコンプライアンスの悪い患者が多い場合にはランダム化が崩れてしまい、治療群と対照群の背景が同じではなくなる可能性がある。
EfficacyとEffectiveness
RCTではエントリー基準を設定して、一定の基準に合致した、なおかつRCTに参加を同意するか希望した患者さんを対象として行われる。一方フィールドではその基準に合致しない患者さんがたくさんいる。たとえば、合併症として肝炎がある場合には通常エントリーされないであろう。しかし、慢性肝炎や肝硬変の患者さんでその対象疾患に罹患している人がいる場合も多い。また、より一般的な状況では治療を拒否したり、途中でやめたりする患者さんも多くなる可能性が高い。その場合RCTで効果ありと判定された治療法が同じように有効かどうかは100%の確実性をもって言えるかどうかが問題となる。RCTで証明された効果をEfficacyと呼び、それをもっと一般化した際の効果をEffectivenessと呼ぶ。一般的にはEfficacyに比べて、Effectivenessの方が、その程度は低い。それはフィールドにおける患者さんの方がバリエーションに富んでいるから、平均的には効果が薄められると考えられるからである。
より一般的な言い方をすると、”一般化” Generalizability、あるいは”外挿” Extrapolationということになる。つまり、ある特定の制限がなされた条件下での結果をより一般的な状況へ応用することは、結果にある程度の相違を伴うということである。従って、自分の診ている患者さんにある治療を行っても、論文に書かれていると同じ効果が得られないこともあるということは認識しておく必要がある。論文で対象とされた症例と年齢、性別、合併症の有無などが異なってくれば、当然の事ながら、効果も違うかもしれないということを予測しておく必要がある。
Number Needed to Treat (NNT)
治療を受けた患者さんの何%で効果があるかを簡単に示す指標として、Number Needed to Treat (NNT)が使われる。ひとつのOutcomeを阻止するのに必要な患者さんの数と定義される。 例えば、プラセボで5%の患者さんが治癒し、ある薬剤の投与によって、25%の患者さんが治癒したとすると、その差は20%であるから、5人治療して初めて1人の治癒する患者に遭遇することになる。この治療法のNNTは5と言うことになる。NNTが小さいほど効果の高い治療法と言うことになり、NNTが大きいほど効果の低い治療法と言うことになる。NNTは治療法を比較するのに用いることが出来るとともに、実際の臨床の場において、その治療法がどれ位効果があるのかを具体的に表す簡便な指標と言える。また、NNTは絶対リスクの減少の逆数ともいえる。
治療法を比べる際の指標として、リスクの相対減少率Relative risk reduction、リスクの絶対減少率Absolute risk reductionも用いられる。
Relative risk rduction = (治療群のOutcome発現率 − 対照群のOutcome発現率)/対照群のOutcome発現率
Absolute risk reduction = (対照群のOutcome発現率 − 治療群のOutcome発現率
Number needed to treat = 1/(対照群のOutcome発現率 − 治療群のOutcome発現率)
%で発現率を表す場合には算出された結果に100を掛け算する。ここでOutcomeというのはたとえば、癌の再発率や偏頭痛の発現率などを考えれば理解されると思う。また、治癒率を用いて計算するのであれば、計算結果の正負を逆にすればよい。
また、血圧値やヘモグロビン濃度のような数値変数の場合にはそれぞれの群の平均値を用いて同様の計算をすれば、よい。
NNTは二つの治療法を比較するために用いられるのが普通である。プラセボとあるいは従来の治療法と新しい治療法を比べるために行われたRCTの結果に基づいて計算される。従って、NNTは新しい治療法が比較対照された治療法よりどれくらい優れているか、あるいは劣っているかを示す指標となる。たとえば、新しい治療法で80%の患者さんが治癒し、従来の治療法で30%の患者さんが治癒したとすると、この新しい治療法のNNTは1/(0.3 - 0.8) x -1 = 2 ということになり、1/0.8 = 1.25 ではない。もしプラセボ群も含まれている研究であり、プラセボによる治癒率が5%だとすると、プラセボに対して新しい治療法のNNTは1/(0.05 - 0.8) x -1 = 1/(0.8 - 0.05) = 1.3、従来の治療法のプラセボに対するNNTは1/(0.3 - 0.05) = 4になる。もし新しい治療法が従来の治療法より劣っていればNNTはマイナスの値になる。
これらの指標は同じ条件で行われた治療法を比較する場合には有効と考えられるが、そうでない場合にはこれらの指標を単純に比較することはむずかしい。すなわち、二つの治療法を、たとえば従来の治療法と新しい治療法を比較するためのRCTが行われ、その結果を比較するのは意味があるが、対照患者の異なる二つの治療法を直接比較することはできないはずである。
副作用
RCTは治療法の効果判定法のゴールド・スタンダード Gold Standardであるが、副作用に関しては不完全な情報しか得ることが出来ない。RCTで有効性が確認された治療法でも、副作用が起きることは避けられないとも言える。特に、稀ではあるが重大な副作用が一番問題になるが、それをRCTの段階で捉えられるかどうかはある程度偶然に左右される。
一般には”Rule of Three” ”3の法則”を当てはめて考えることが出来る。例えば、100人に1人しか起きない副作用を95%の確実性で検出するためには300例からなる治療群が必要とされる。逆に言うと、1500人を治療群として行われたRCTでは500人に1人の割合で起きる副作用までは検出できるが、それ以上稀な頻度で起きる副作用については知ることが出来ない。マーケティングされて、何千、何万という患者さんがその治療を受ける、あるいはその薬剤を服用することになると、RCTの段階で認められなかった副作用が起きる可能性はあるのである。もし、その副作用が非常に重篤であったり、場合によっては死に至るような副作用であった場合には、その治療によって得られる利益と副作用による不利益を適切に判断して、その治療を廃棄するのか認めるのかを決定しなければならない。
臨床試験のフェース
Phase I trial は10名程度の少数の患者さんで薬剤の用量と安全性を確認する臨床試験である。Phase II trial ではその薬剤が有効性があるかどうかと用量と有効性の関係を明らかにするために、行われ、Maskingして行われることが多いが、そうでない場合もある。例数は少なめで、統計学的に十分なパワーを持たないことが多い。Phase III trialでは有効性について確実な結果を得るために、そして一般的な副作用の有無を明らかにするために、多数の患者さん(数十から数千)を対象に行われ、論文の形で発表されることが多い。
副作用については上市後の調査が不可欠になり、これをPhase IV trialと呼ぶこともある。
(1999.2.25 神奈川歯科大学 内科 森實敏夫)