マローズのCp

MallowsのCp[1] [2]は、最小二乗法によって推定された回帰モデルの適合度を評価するために用いられる指標である。名前はコリン・リングウッド・マローズにちなむ。モデル選択を行う際に用いられ、ある複数の変数から出力を予測することができるとき、その中から一部の変数を選んで最も良いモデルを見つけることが目的である。Cpの値が小さいほど、モデルが比較的正確であることを意味する。

マローズのCpは、ガウス線形回帰という特殊な場合において赤池情報量基準に相当することが示されている。[3]

定義と性質

マローズのCpは、過剰適合の問題に対する方法である。一般にモデルの変数が増えれば増えるほど、残差平方和などのモデル適合度の指標は常に小さくなる。したがって、残差平方和が最小となるモデルを選択する場合、常にすべての変数を含むモデルが選択されてしまう。代わりに、データのサンプルで計算されたC p統計は、 母集団ターゲットとして平均二乗予測誤差 (MSPE)を推定する。

E j ( Y ^ j E ( Y j X j ) ) 2 σ 2 {\displaystyle E\sum _{j}{\frac {({\hat {Y}}_{j}-E(Y_{j}\mid X_{j}))^{2}}{\sigma ^{2}}}}

ただし、 Y ^ j {\displaystyle {\hat {Y}}_{j}} j 番目のケースのフィット値、E (Yj | Xj) は j 番目ケースの期待値であり、σ2は誤差分散(全ケース共通の定数とみなされる)である。変数が追加されても、MSPEは自動的に小さくなることはない。この基準での最適なモデルは、サンプルサイズ、さまざまな予測変数の効果量、および変数間の共線性の程度によって決まる。

P個の変数がK>PであるようなK個の変数から選択された場合、Cpは次のように定義される。

C p = S S E p S 2 N + 2 P , {\displaystyle C_{p}={SSE_{p} \over S^{2}}-N+2P,}

ただし、

  • S S E p = i = 1 N ( Y i Y p i ) 2 {\displaystyle SSE_{p}=\sum _{i=1}^{N}(Y_{i}-Y_{pi})^{2}} は、P個の変数を持つモデルの残差平方和
  • Y piは、 P リグレッサからのYの i番目の観測の予測
  • S 2は、 K個すべての変数を用いて回帰分析を行った場合の残差平均平方(residual mean square)であり、平均二乗誤差(MSEによって推定される。
  • Nは標本サイズ

その他の定義

次のような線形モデルがあるとする。

Y = β 0 + β 1 X 1 + + β p X p + ε {\displaystyle Y=\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p}+\varepsilon }

ただし、

  • β 0 , , β p {\displaystyle \beta _{0},\ldots ,\beta _{p}} は予測変数 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} の係数
  • ε {\displaystyle \varepsilon } は誤差を表す

Cp以下のようにも定義される[4]

C p = 1 n ( RSS + 2 d σ ^ 2 ) {\displaystyle C_{p}={\frac {1}{n}}(\operatorname {RSS} +2d{\hat {\sigma }}^{2})}

ただし、

  • RSSは、教師データセットの残差平方和
  • dは予測変数の数
  • σ ^ 2 {\displaystyle {\hat {\sigma }}^{2}} は線形モデルの各応答に関連する分散の推定値を指す(すべての予測子を含むモデルで推定される)

この定義によるCpの値は、前掲の定義によるCpの値と等しくないが、いずれの定義においてもCpを最小にするようなモデルは同一である。

制約

Cp基準には主に2つの制約がある[5]

  1. Cp近似は大きなサンプルサイズに対してのみ有効である。
  2. Cp変数選択(または特徴選択)の問題のようなモデルの複雑な集合を扱うことができない[5]

実用

関連項目

参考文献

  1. ^ Mallows, C. L. (1973). “Some Comments on CP”. Technometrics 15 (4): 661–675. doi:10.2307/1267380. JSTOR 1267380. 
  2. ^ Gilmour, Steven G. (1996). “The interpretation of Mallows's Cp-statistic”. Journal of the Royal Statistical Society, Series D 45 (1): 49–56. JSTOR 2348411. 
  3. ^ Boisbunon, Aurélie; Canu, Stephane. "AIC, Cp and estimators of loss for elliptically symmetric distributions". arXiv:1308.2766 [math.ST]。
  4. ^ James, Gareth; Witten; Hastie; Tibshirani (2013-06-24). An Introduction to Statistical Learning. http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf: Springer. pp. 211. ISBN 978-1-4614-7138-7 
  5. ^ a b Giraud, C. (2015), Introduction to high-dimensional statistics, Chapman & Hall/CRC, ISBN 9781482237948

参照

  • Chow, Gregory C. (1983). Econometrics. New York: McGraw-Hill. pp. 291–293. ISBN 978-0-07-010847-9. https://archive.org/details/econometrics0000chow/page/291 
  • Hocking, R. R. (1976). “The analysis and selection of variables in linear regression”. Biometrics 32 (1): 1–50. doi:10.2307/2529336. JSTOR 2529336. 
  • Judge, George G.; Griffiths, William E.; Hill, R. Carter; Lee, Tsoung-Chao (1980). The Theory and Practice of Econometrics. New York: Wiley. pp. 417–423. ISBN 978-0-471-05938-7