多変量解析

-入門編-

医学で扱う現象は多数の因子が関与する

医学におけるアウトカムは複数の危険因子によって,決定される。たとえば,結核は結核菌が原因である。しかし,結核が疾患として引き起こされるかどうかは,結核菌が感染したかどうかだけで決まるわけではない。結核菌が多剤耐性菌かそうでないか,感染した菌の量が多いか少ないか,感染経路はどこか,宿主の免疫能が低化しているかどうか,すくなくともこれらの複数の因子によって,結核という疾患が起きるかどうか,どの臓器に起きるかが決まってくる。このように,医学の領域で起きる出来事は,ほとんどの場合,複数の因子によって,規定されていることが分かる。感染症の場合でも遺伝的因子が関与する疾患の場合でも,そうである。ある1つの因子がアウトカムに対して非常に大きな影響を及ぼしている場合でも,かならず他の複数の因子が同時にアウトカムに関与していることが普通である。したがって,医学では1つのアウトカムに対して,複数の因子がどのように関係しているのかを明らかにする必要がある。

層別化と多変量解析

それを可能にする一つの方法が層別化Stratificationである。しかし,この方法では,因子の数が多くなってくると,亜群のサンプルサイズが小さくなるため,全体として多くの症例数が必要になる。また,それぞれの因子が全体としてアウトカムにどのように影響を及ぼしているのかは知ることができない。そこで,必要になるのが,多変量解析である。多変量解析はさまざまな原因あるいは危険因子が1つのアウトカムに相対的にどの程度貢献しているか,あるいは寄与しているか,あるいは1つのアウトカムをどれくらい説明できるかを決定するための1つの方法である。この場合,アウトカムは従属変数とも呼ばれ,原因あるいは危険因子は独立変数とか説明変数と呼ばれる。

多変量解析と単変量解析

多変量解析はMultivariate AnalysisあるいはMultivariable Analysisと呼ばれるが,前者は複数のアウトカムを予知するための解析を指して用いられることもあり,医学の分野では1つのアウトカムに対して,複数の因子が全体としてどのように影響するかを解析するのが普通なので,Multivariable Analysisという呼び名の方が好ましいとされている。多変量解析に対して,単変量解析Univariate AnalylsisあるいはUnivariable Analysisがあるが,これも二変量解析Bivariable Analysisと呼ばれる場合もある。アウトカムがたとえば死亡/生存といった2値をとる名義変数の場合,それに対して,1つの危険因子がある場合とない場合(名義変数)で,アウトカムがどちらの値をとるのかという解析や,1つの危険因子が連続変数である値をとるとき,アウトカムがどちらの値をとるのかという解析をするのであるから,2つの変数の関係を解析するという意味で,Bivariable Analysisという呼び方は適切である。

さて,変数にはどのようなものがあるかここで確認しておこう(表1)。

表1:変数の分類
連続変数Continuous Variable 実数,整数など一定の間隔Intervalで並ぶ数値。数値変数Numeric Variableとも呼ばれる。
順序変数Ordinal Variable ステージ分類のような上下関係あるいは大小があるがその間隔は一定ではない変数。
名義変数Nominal Variable 死亡/生存,治癒/非治癒,男性/女性のような大小の概念が無い変数。
 
*これらの変数の尺度に着目する場合は,連続尺度Continuous Scale(間隔尺度Interval Scale),順序尺度Ordinal Scale,名義尺度Nominal Scaleという言い方をする。

医学の分野で使われる多変量解析

それでは医学の分野で用いられている多変量解析にはどのようなものがあり,どのような特徴があるのかを最初に紹介しよう。それは1)重回帰分析Multiple Linear Regression,2)多重ロジスティック回帰分析Multiple Logistic Regression,3)比例ハザード分析Proportional Hazards Analysisの3つである。これらの呼び名もさまざまなものが通用している。コックス比例ハザードモデルCox's Proportional Hazards Modelと呼ばれるのは,3)であり,ロジスティック回帰分析Logistic Regressionと呼ばれるのは2)である。比例ハザード分析は生存分析の1つであるKaplan-Meier法と一緒に用いられることが多い。

これら3つの多変量解析がどのようなアウトカムと,どのような危険因子を解析対象に出来るかを表2に示す。特に,アウトカムが二分変数(Dichotomous Variable)である多重ロジスティック分析と比例ハザード分析は医学の分野で非常に有用であり,多用されている。アウトカムが,死亡/生存,有効/無効,疾患である/ないなどの場合が多いからである。

表2 : 3つの多変量解析と解析対象
 
方法 危険因子 アウトカム
重回帰分析 連続変数,二分変数(Dichotomous Variable),順序変数*,名義変数* 連続変数
多重ロジスティック回帰分析 連続変数,二分変数,順序変数*,名義変数* 二分変数
比例ハザード分析 連続変数,二分変数,順序変数*,名義変数*  二分値をとるアウトカムが起きるまでの時間。打ちきり例を含む。

*多二分変数Multiple Dichotomous Variableに変換する必要がある。(この過程は,ダミー変数Dummy Variablesに変換する,あるいは多分類変数Multiple Categorical Variableを作るとも呼ばれる。)
 

多二分変数Multiple Dichotomous Variableとは
たとえば,ある治療の結果に対して,著効,有効,無効の3つの名義変数が割り当てられるとする。この場合,著効と有効という2つの二分変数を作り,それがYesまたはNoによって,1または0の数値を当てはめることによって,これら3つの名義変数に対応することが出来る。
 
著効 有効 無効
著効 1 0 0
有効 0 1 0

この多二分変数への変換をどのように行うかは,研究者の考え方次第である。たとえば,上記の例では,無効に対して,著効の患者はアウトカムの出現が低下し,有効もある程度低下するであろうことを予期している。つまり,ベースになるのが,無効で,そのベースに対して,著効あるいは有効の場合にアウトカムがどう変わるかを知りたいと考えているということである。

PCで使える統計解析ソフトの代表的なものとして,JMP(SAS Institute),SPSS( )などがあり,医学の分野でも広く使われている。JMPでは,手作業で多二分変数への変換をしなくても,自動的にそれをやってくれる。その場合の規則は,名義変数の値(文字列で表された値)をアルファベット順に並べ,一番最後のものをベースにする。たとえば,上の例で,名義変数名(具体的には表のカラム名)をResponseとして,それがとる値を,著効をCR,有効をPR,無効をNRとすると,PRがベースとして扱われる。それを,著効をA,有効をB,無効をCとすると,無効をベースにして解析が行われる。著効を0,有効を1,無効を2として,変数の属性を名義変数に設定しても同様である。したがって,名義変数の値をどのように割り付けるかを良く考えて,データ表を作成する必要がある。

多重ロジスティック回帰分析

さて,多重ロジスティック回帰分析はアウトカムが二分変数なので,疾患がある/ない,病態がある/ない,治療が有効/無効などに関係している複数の因子を見つけ出したり,またそれら複数の因子によって,アウトカムがどちらの値をとるのかを予知したりに広く使われている。また,生存/死亡がアウトカムの場合,それが,独立変数つまり危険因子や予知因子の測定後ある一定の期間で生起する事象で,フォローアップする必要がない場合にはロジスティック回帰分析を用いる。つまり,後で解説する打ちきり例Censored caseがない場合には,この方法を用いることが出来る。

比例ハザード分析

打ちきりCensoringが起きる場合には,比例ハザード分析を用いる。たとえば,ある抗癌剤と別の抗癌剤の効果を死亡(あるいは生存)をエンドポイントとしてランダム化対照試験で明らかにしたい場合,患者が全員死亡するまで待つことはできない。研究終了時点ではその時点で生存している症例はすべて打ち切り例になる。そのようなデータを解析したい場合には,Kaplan-Meier法のような生存分析が用いられ,さらにエンドポイントに影響を及ぼすエントリー時点の複数の因子を解析したいときには,比例ハザード分析を用いる。

打ち切りはいろいろな理由で起きる。
1)フォローアップの中断
2)解析対象のアウトカムが別の原因により引き起こされてしまう。たとえば,癌による死亡をフォローアップしている際に心筋梗塞で患者が死亡してしまうような場合。
3)副作用などで脱落する。
4)研究の終了時点でまだアウトカムが起きていない。
5)研究の開始時期がばらばらなため,フォローアップの期間が一定でなくなる。

打ち切りはフォローアップ期間全体にばらばらに分布していて,打ち切りの理由も特別な傾向がない必要がある。そうでないと,解析結果に問題を引き起こす可能性がある。フォローアップの中断はさまざまな原因で起きるが,そこに何らかの一定の傾向がある場合は問題となる可能性がある。また,脱落についても,一定の傾向があると問題となる可能性が出てくる。

多変量解析の前提

ちょっと難しくなるかもしれないが,3つの多変量解析が,どのような前提のもとで,何をモデル化するのか確認しておこう。

表3:多変量解析の前提
 
重回帰分析 多重ロジスティック分析 比例ハザード分析
モデル化されるもの アウトカムの平均値 アウトカムのオッズの自然対数(ロジットlogitと呼ばれる) ハザード比の自然対数
独立変数とアウトカム(従属変数)の関係 独立変数とアウトカムの平均値は直線関係にある 独立変数とアウトカムのロジットは直線関係にある 独立変数とハザード比の自然対数は直線関係にある
数値変数以外の変数とアウトカムの関係 独立変数が1単位変動するにつれアウトカムの平均値が直線的に変動する 独立変数が1単位変動するにつれアウトカムのロジットが直線的に変動する 独立変数が1単位変動するにつれハザード比の自然対数が直線的に変動する
アウトカムの分布 正規分布 二項分布 特定の分布をしめさない
打ち切り例 扱えない 扱えない 扱える:打ち切り例はアウトカム発生までの時間が打ち切り例ではない例と同じとして扱う
ハザード比 関係なし 関係なし 時間経過中一定

  
多重ロジスティック分析では,独立変数とアウトカムのロジットは直線関係にあることを前提としているが,この点を少し説明しておこう。たとえば,肝硬変の患者で,腹水の有無をアウトカムとして血清アルブミン値を独立変数として,門脈圧亢進などその他の独立変数とともに調べたとする。血清アルブミン値を横軸に縦軸に腹水のある患者の割合をプロットすると,いわゆるZ字型になるはずです。つまり,血清アルブミン値が低いと,腹水のある患者の割合が高くなり,血清アルブミン値が高くなると,腹水のある患者の割合が少なくなるはずです。さらに,血清アルブミン値がある値以上になると,いくら高くなっても腹水のある患者の割合は一定(おそらく0)になるでしょう。逆に,血清アルブミン値がある値以下になると,いくら低くなっても腹水のある患者の割合は一定(おそらく1.0または100%)になるでしょう。したがって,Z字型になるはずです。この場合,縦軸にロジットlogitつまりln[腹水のある割合/(1?腹水のある割合)]をとると,左上から右下に下がる直線になるはずです。これが,「独立変数とアウトカムのロジットは直線関係にある」という意味です。なお,オッズはある事象が起きる確率をそれが起きない確率で割り算した値です。この場合には,腹水のある割合を腹水のない割合で割り算した値になり,ロジットはその値の自然対数ということになる。また,Z字型ではなくS字型になる場合も独立変数とアウトカムのロジットは直線関係になる。

実際に肝硬変症325例で血清アルブミン値と腹水の関係をプロットした図を示す。腹水の存在する割合と血清アルブミン値はZ字型の関係にあり,腹水の存在に対するのロジットと血清アルブミン値は直線関係にあることが分かる。


図1 血清アルブミン値と腹水の関係。横軸が血清アルブミン濃度(g/dl)で縦軸が,腹水のある患者の割合(紺の線)あるいは腹水のあることに対するロジット(紫の線)。*

比例ハザード分析でいうハザード比Hazard Ratio(Relative Hazard)は独立変数により,2群を作った場合,それぞれの群における,アウトカムが起きるまでの時間の比のことである。そして,比例ハザード分析では,アウトカムに影響を及ぼすと考えられる因子の作用=ハザードHazardsが,他の因子が異なっていても,フォローアップ期間中一定であるという前提がある。たとえば,白血病で骨髄移植と化学療法を比較する場合,これらの因子で2群に分けて,生存曲線を描くと,フォローアップ期間の前半では骨髄移植群の死亡率が高く,後半では化学療法の死亡率が高くなる。その結果,2つの生存曲線は交差することになる。このような,因子は比例ハザード分析で適切に扱うことはできない。つまり,他の複数の因子とこれら2つの治療法を説明変数として,解析すると,治療法は有意な因子としては選択されなくなる。だからといって,二つの治療法が同じ生存をもたらすということはできない 。比例の前提はその因子の値によって分けた2群のKaplan-Meier生存曲線が平行していれば,満たされると言ってよい。

たとえば,標準的IFN治療を受けたC型慢性肝炎121例で血小板数10万/μl以上(110例)と未満(11例)の群で肝細胞癌の発生をKaplan-Meier法で解析すると,次のような生存曲線が得られた。観察期間のどの時期においても交差することなく,前者の群が肝細胞癌フリーの割合が高い。ハザード比は4.2(95%信頼区間2.2-8.3)であった。


図2 C型慢性肝炎における肝細胞癌フリーの累積割合(Kaplan-Meier法)。赤い線が血小板10万/μl未満,緑の線が10万/μl以上の群。横軸は月数。Logrank法でP<0.0001。*

これらの前提条件が満たされるかどうか,多変量解析を行なう前に確認することが望ましい。
 

多変量解析の適用時に考慮すべきこと:交絡など

さて,さまざまな説明変数(独立変数)とアウトカムの関係を考えてみることにしよう。ここでは,説明変数として危険因子を考える。

交絡因子Confounder,confounding variable

最初に有名な例を取り上げる。マッチ(危険因子)を持っていることと肺癌(アウトカム)の関係を調べたとする。マッチを持っている人のほうが肺癌の発症率が高いという結果が得られる。では,マッチを持っていることが,肺癌になりやすくするのであろうか。これはどう考えてもおかしい。マッチと肺癌は直接の関係があるとは思えない。この場合には,喫煙者はタバコを吸うためにマッチを常時持っており,実際の肺癌の原因は喫煙であり,マッチを持っていることに対して,喫煙が交絡因子となっている。

交絡は見かけ上の危険因子とアウトカムの関係が第3の因子によって影響される場合に起き,第3の因子のことを交絡因子と呼ぶ。交絡因子は危険因子と関係があって,アウトカムの原因となりうる因子である(図のA)。急性心筋梗塞に対する血栓溶解療法の効果に及ぼす喫煙の影響も交絡の例として知られている 。その他,無数の事例がある。

抑制因子 Suppressor

抑制因子は交絡因子の一種である。交絡因子であるから,危険因子とアウトカムの両方に関係するが,危険因子のアウトカムに及ぼす影響を減弱させるように作用する(図のB)。しかし,通常の交絡因子と異なり,統計解析の際に,抑制因子で調整を行なうか,抑制因子に基づいて層別化しないと,危険因子とアウトカムの関係は現れてこない。したがって,抑制因子の同定は非常に重要であり,同定した上で,調整を行なわないと,まったく間違った結論に達することになる可能性が高い。

たとえば,HIV陽性者からの針刺し事故で,zidovudineの服用がHIV感染を防止するかどうか調べるケースコントロール研究 が行なわれた。ケース(症例)は針刺し事故を起こしてzidovudineを服用した者で,コントロール(対照)は服用しなかった者である。薬剤の服用はランダム割り付けではないから,ケースとコントロールをマッチングさせることは非常に難しい。実際に得られた感染率のデータはzidovudine服用者の9/33 (27%),非服用者の247/679 (36%) (P=0.35),オッズ比=0.7 (95%信頼区間,0.3-1.4)で有意差がなかった。

しかし,受傷がひどく,より大量の血液に暴露した者は,感染のリスクが高いと判断して,zidovudineを服用し,そうでない者は服用しなかった可能性がある。もしそうだとすると,zidovudineを服用した群は感染のリスクがより高い群であるから,見かけ上感染率が同じになった可能性が出てくる。

そこで,zidovudineの服用の有無だけでなく,受傷の程度を説明変数に取り込んで多重ロジスティック回帰分析が行なわれた。この方法により,受傷の程度に対して調整が行なわれる 。その結果,zidovudine服用に対するオッズ比=0.2 (95%信頼区間,0.1-0.6)となり,zidovudine服用がHIV針刺し事故の際の感染を5分の1に抑制しうることが明らかとなった。この例では,受傷の程度がzidovudineとアウトカムの間で抑制因子として作用していたことになる。

介在因子Intervening variable

介在因子は危険因子とアウトカムの間に介在する因子であり,危険因子の影響を受けて変動し,さらにアウトカムにも影響を与えるような因子である(図のC)。たとえば,アルコール多飲と心筋梗塞の関係を考えると,アルコール多飲は血圧上昇,体重増加,血清コレステロール上昇を引き起こし,これら3つの因子はいずれも心筋梗塞のリスクを高めるが,介在因子となる。危険因子とアウトカムの両方に関係があるという意味では,交絡因子といえるが,交絡因子として扱って,多変量解析を行なうと,解析したい危険因子とアウトカムの関係が除去されてしまう可能性が出てくる。たとえば,上記の例ではアルコール多飲が心筋梗塞とは関連がないという結果になってしまうので,介在因子を同定することは重要である 。

相互作用因子Interaction variable

危険因子のアウトカムに及ぼす影響が第3の因子のとる値によって,変化させられる場合,その第3の因子を相互作用因子という(図のD)。つまり,危険因子のアウトカムに対する作用を修飾する因子である。相互作用因子の値により,危険因子のアウトカムに対する作用が異なり,極端な場合には,危険因子とアウトカムの関係が逆になることもある。

以上述べたように,多変量解析を何も考えずに適用することはよくないことが分かると思う。それぞれの独立因子がアウトカムとどのような関係にあると考えられるのか,臨床的に,生物学的にそれらの関係が説明ができるかどうか,また,それぞれの独立因子の間にどのような関係があると考えられるか,これらが重要である。

多変量解析を行なう前に,それぞれの独立変数とアウトカムの間で単変量解析を行なうとともに,それぞれの独立因子の間でも同様の解析を行なってみるとよい。独立変数とアウトカムの間に直線関係が成立するかどうかをチェックし,そうでない場合には,ログ変換などで対処することも考える。また,それぞれの独立変数およびアウトカムの分布もヒストグラムを描いてチェックするとよい。


図3 危険因子Risk FactorとアウトカムOutcomeとそれに影響を及ぼすさまざまな因子。

必要なサンプル数

多重ロジスティック分析,比例ハザード分析の場合には1つの独立変数あたり,アウトカムが生起した症例が10必要とされている   。これら2つの方法では,全症例数ではなく,アウトカムがすでに起きた症例が10ということである。重回帰分析の場合は,1つの独立変数あたり,20症例必要とされている 。この場合は,全症例数である。

*図1,図2のデータは昭和大学第二内科柴田実先生より提供を受けました。
(2001.2.23森實敏夫)



[文献]
Appelbaum FR, Dahlberg S, Thomas ED, Buckner CD, Cheever MA, Clift RA, Crowley J, Deeg HJ, Fefer A, Greenberg PD and et al.:  Bone marrow transplantation or chemotherapy after remission induction for adults with acute nonlymphoblastic leukemia. A prospective comparison. Ann Intern Med 1984; 101:581-8.  UI: 85020942  PMID: 6385797

Barbash GI, Reiner J, White HD, et al.:  Evaluation of paradoxic beneficial effects of smoking in patients receiving thrombolytic therapy for acute myocardial infarction: mechanism of the "smoker's paradox" from the GUSTO-I trial, with angiographic insights. Global Utilization of Streptokinase and Tissue-Plasminogen Activator for Occluded Coronary Arteries. J Am Coll Cardiol 1995; 26:1222-9.

Cardo DM, Culver DH, Ciesielski CA, et al.:  A case-control study of HIV seroconversion in health care workers after percutaneous exposure. Centers for Disease Control and Prevention Needlestick Surveillance Group. N Engl J Med 1997; 337:1485-90.

Katz MH: Multivariable analysis: A practical guide for clinicians. Cambridge University Press, Cambridge, 1999, pp.11-12.

Camargo CA, Stampfer MJ, Glynn RJ, et al.:  Moderate alcohol consumption and risk for angina pectoris or myocardial infarction in U.S. male physicians. Ann Intern Med 1997; 126:372-5.

Harrell FE, Lee KL, Matchar DB and Reichert TA:  Regression models for prognostic prediction: advantages, problems, and suggested solutions. Cancer Treat Rep 1985; 69:1071-77.  UI: 86002205  PMID: 4042087

Peduzzi P, Concato J, Feinstein AR and Holford TR:  Importance of events per independent variable in proportional hazards regression analysis. II. Accuracy and precision of regression estimates. J Clin Epidemiol 1995; 48:1503-10.  UI: 96136150  PMID: 8543964

Peduzzi P, Concato J, Kemper E, Holford TR and Feinstein AR:  A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 1996; 49:1373-9.  UI: 97125408  PMID: 8970487

Feinstein AR: Multivariable Analysis: An Introduction. Yale University Press, New Haven, 1966, pp.226.



[Return to Home Page] [Return to Techniques in Hapatology]