パネルデータ分析

パネル・データ: panel data)とは、時系列データとクロスセクションデータを合わせたデータであり、同時に多数の個人、地域、事業所などを観察する一方で、複数の観察時点では同一の観察対象を維持するものである。自然科学のみならず、社会学経済学等の社会科学における統計的な分析にも使用される。

パネルデータの例

バランスド・パネル アンバランスド・パネル
p e r s o n y e a r i n c o m e a g e s e x 1 2003 1500 27 1 1 2004 1700 28 1 1 2005 2000 29 1 2 2003 2100 41 2 2 2004 2100 42 2 2 2005 2200 43 2 {\displaystyle {\begin{matrix}\mathrm {person} &\mathrm {year} &\mathrm {income} &\mathrm {age} &\mathrm {sex} \\1&2003&1500&27&1\\1&2004&1700&28&1\\1&2005&2000&29&1\\2&2003&2100&41&2\\2&2004&2100&42&2\\2&2005&2200&43&2\end{matrix}}} p e r s o n y e a r i n c o m e a g e s e x 1 2003 1500 27 1 1 2004 1700 28 1 2 2003 2100 41 2 2 2004 2100 42 2 2 2005 2200 43 2 3 2004 3000 35 1 {\displaystyle {\begin{matrix}\mathrm {person} &\mathrm {year} &\mathrm {income} &\mathrm {age} &\mathrm {sex} \\1&2003&1500&27&1\\1&2004&1700&28&1\\2&2003&2100&41&2\\2&2004&2100&42&2\\2&2005&2200&43&2\\3&2004&3000&35&1\end{matrix}}}

上記の例では、個人間のクロスセクション・データと期間ごとの時系列データからなる2つの例が示されている。ここでは、個人の特徴が所得(income)・年齢(age)・性別(sex)で示されている。左側の例での個人1と個人2については、データ期間が2003年・ 2004年・2005年の3期間示されており、これをバランスド・パネルと呼ぶ。一方、右側は、個人2のみ2003年・ 2004年・2005年の3期間のデータ含まれるものの、個人1は2003年・ 2004年の2期間、個人3は2004年の1期間のみであり、アンバランスド・パネルと呼ばれる。

パネルデータを用いた回帰分析

パネルデータは以下のような形式をとる。

X i , t , i = 1 , , N , t = 1 , , T {\displaystyle X_{i,t},\quad i=1,\dots ,N,\quad t=1,\dots ,T}

ここで、 i {\displaystyle i} は各個人を示し、そして、 t {\displaystyle t} は期間を示す。

パネル・データを用いた回帰分析は一般的に以下のように示すことができる。

y i , t = α + β X i , t + u i , t {\displaystyle y_{i,t}=\alpha +\beta 'X_{i,t}+u_{i,t}}

この式の通り、誤差項 u i , t {\displaystyle u_{i,t}} が、 μ i {\displaystyle \mu _{i}}  と  ν i , t {\displaystyle \nu _{i,t}}  に分離されていることがパネル・データ分析の特質の1つである。

これは主に 固定効果モデルとランダム効果モデルと呼ばれるモデルにてパラメータを推定する。

固定効果モデルは、

y i , t = α + β X i , t + u i , t {\displaystyle y_{i,t}=\alpha +\beta 'X_{i,t}+u_{i,t}}
u i , t = μ i + ν i , t {\displaystyle u_{i,t}=\mu _{i}+\nu _{i,t}}

であり、 μ i {\displaystyle \mu _{i}} は個人に特有であり、時間を通じて変化しない一定な効果(例えば、クロスカントリー比較でのパネルデータであれば、地理的条件や気候など)である。

これに加えて、ランダム効果モデルとは、

μ i i.i.d. N ( 0 , σ μ 2 ) {\displaystyle \mu _{i}\sim {\text{i.i.d.}}\;N(0,\sigma _{\mu }^{2})}

そして、

ν i , t i.i.d. N ( 0 , σ ν 2 ) {\displaystyle \nu _{i,t}\sim {\text{i.i.d.}}\;N(0,\sigma _{\nu }^{2})}

となり、即ち、 誤差項の構成要素が互いに独立であることを意味する。


参考文献

  • 北村行伸「パネルデータの意義とその活用―なぜパネルデータが必要になったのか」(PDF)『日本労働研究雑誌』第551号、独立行政法人労働政策研究・研修機構、2006年、6-16頁。 
  • 山口一男「パネルデータの長所とその分析方法:常識の誤りについて(パネル講演)」(PDF)『季刊家計経済研究』第62号、公益財団法人家計経済研究所、2004年、50-58頁。 

関連項目

外部リンク

  • 北村行伸 (2004年). “第1講 パネルデータ分析の考え方” (PDF). 上級パネルデータ分析(II). 一橋大学経済研究所. 2012年6月30日閲覧。
  • 松浦寿幸. “Stata によるパネルデータ分析” (PDF). 2012年6月30日閲覧。
  • “Panel Study of Income Dynamics - Home” (英語). 2012年6月30日閲覧。
  • “KLIPS” (朝鮮語). 2018年3月27日時点のオリジナルよりアーカイブ。2019年1月2日閲覧。
  • “Pairfam: Study” (英語). 2012年6月30日閲覧。
  • 表示
  • 編集
スタブアイコン

この項目は、統計学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(プロジェクト:数学/Portal:数学)。

  • 表示
  • 編集