さて、HCV陽性のLCで31例のHCC合併例と37例の非合併例のデータをLogistic Regression Analysisで解析し、HCCの合併を推測する因子の解析を行ってみました。その結果はこちらです。
ロジスティック回帰分析Logistic regression analysis
Logistic regressionは応答変数Yがbinaryつまりdichotomousで2つの値の内のどちらかをとるようなもので、説明変数Xは数値変数でも名義変数でもどちらも使える重回帰分析です。
例えば、重症急性肝炎が劇症肝炎になるか普通の急性肝炎になるのかを決定する因子は何か、例えば総ビリルビン値とコリンエステラーゼと原因ウイルスの種類。あるいは肝細胞癌があるか無いかを決定する因子は何か、といったような解析をしたい場合に用います。従って、近年医学の分野で多く使われています。この解析の結果、R Squareと、それぞれの説明変数に対する係数と切片Interceptが得られます。また、それぞれの係数に対するP Valueも得られますので有意かどうか判定する事ができます。
R Squareは説明変数全体として応答変数の何%を説明できるかを表します。0.5であれば半分、1.0であれば100%です。この値があまり小さければ検討された因子以外にもっと重要な因子があるといえます。
変数が名義変数の場合にはそれぞれの値の場合に代入すべき値が係数として算出されます。例えば女性であれば−1.2、男性であれば2.5というように式に代入する値が出てきます。数値変数の場合には個々の値に係数を掛け算します。それぞれの説明変数を代入して足し算し、さらに切片を足し算して、そのマイナスの値のExponentialをとります。それに1を加えた値で1を割り算すると確率Probability(P値)が求められます。応答変数がAとBだとします。すると、算出されたProbabilityが0.5を超えれば応答変数がAである確率のほうがそうでないつまりBである確率より高い事になります。もちろん、B=1 - Aとなります。したがって、個々の例の説明変数を式に代入して得られたP値が0.5を超えるかどうかで応答変数がA,Bのどちらかを判定する事ができます。
P = 1/(1 + exp{-[intercept + a1 x X1 + a2 x X2 + X3 ...]})
X3はこの場合名義変数ですから、それぞれに応じた数値をここに代入します。
さて、Logistic regressionをできる統計ソフトにはJMP(ジャンプと呼ぶ;株式会社SASインスティテュート)があります。もちろんSASでできますが今のところStatViewはできません。
Logistic regressionではさらにStepwise Selectionで有意な相関関係にない説明因子を除外する事もできます。残念ながらJMPでは今のところそこまではできませんがSASではもちろんできます。Stepwise SelectionはForward selectionとBackward eliminationがありますが、普通はどちらも同じ結果になります。どういう事をやるかというと、その因子を説明変数として加えるとLarge Rつまり、全体としての相関係数が有意に増加するかどうかをみながら、説明変数として採用すべきかどうかを検討する方法です。
同じようにDiscriminant Analysisは名義変数を予想する方法ですが、説明変数が正規分布に従う事を前提としています。主に社会科学の分野で使われています。また、Log-Linear Analysisは変数がすべて名義変数の場合に使われます。