[2/11,2011作成; 更新 2/10, 2018]


トップページへ

検定力入門

葛西 俊治
 (元・札幌学院大学心理学部臨床心理学科教授)


 検定力 

 このコーナーでは、Jacob Cohen(1992)の論文 "A Power Primer (検定力入門)" Psychological Bulletin, 1992, Vol.112, No.1, 155-159 を参照しつつ解説をしていきます。この論文に先立つ著書、すなわち1962年および1988年の第2版 『Statistical power analysis for behavioral sciences (行動科学のための統計的検定力分析)』は専門家によって引用や参照され、検定力分析の基礎的な文献と位置づけられています。しかし、その内容は高度に専門的であるため、心理学領域を含んでその後も依然として検定力分析が脚光を浴びていない現状を嘆いて書かれたのが1992年のこの論文です。その際、論文編集者から、統計の専門家とは限らない研究者に対して手軽に使えるものを提供してみてはと促されたと述べられています。

 この論文では、検定力分析を巡る嘆かわしい経緯にふれた後、様々な検定方法において考慮すべき「効果量 (Effect Size) 」、つまり、用いる検定がどの程度の効果をもって検定をしているのかを判定するための指標 (ES index) が提示され、簡単な説明が加えられています。表1に効果量の指標「ES index (Effect Size index)」がまとめられ、表2には検定法毎に「必要なデータ数 (N: sample size)」が提示されています。
 
 ここでは、この二枚の表を正しく理解することを目的として、基本的な用語と考え方について説明を加えていきますが、有意性検定について基本的な理解があることを前提としています。ここでの解説は、J.Cohenによる表1と表2に関わる部分を中心にしているので、論文の詳細については原典に直接当たって頂ければと思います。(表1と表2を用意してください→ J.Cohen 1992 の論文 "A Power Primer"はこちら"Cohen1992.pdf"です。(←2/10, 2018: 論文が読めるようにしました)
  
 検定力分析に登場する用語は次の通りです。
  1. α (アルファ): 有意水準の確率値 0.05 (5%)あるいは 0.01 (1%)を用いることが多い。
    「第T種の誤り Type I error」または「α過誤」の程度を示す (αは0〜1)
  2. (帰無仮説が正しいのに誤って棄却してしまう確率)

  3. β (ベータ): 「第U種の誤り Type II error」または「β過誤」の程度を示す (βは0〜1)
    (帰無仮説が間違っているのに棄却しないでいる確率。または、対立仮説が正しいのに採択しないでいる確率)

  4. 1−β (1マイナス ベータ): 検定力
  5. (対立仮説を正しく採択する確率)

  6. ES (Effect Size): 効果量
    帰無仮説と対立仮説とのズレの量で、これが大きいほど効果量が大きいという。

  7. ES index: 効果量を示す指標
    t検定やχ2検定、分散分析などでそれぞれの効果量を示す指標(計算式)が異なる。

  8. (sample size): 標本の大きさ・データ数のこと
    実験や研究前に適切で必要なデータ数を割り出せることが最初の目的となる。

* 検定力分析は「α、 ES、 N、1-β 」の四つの要素によって構成され、そのうちの一つの指標は残りの三つの指標の組み合わせによって算出されるという関係にあります。
必要なデータ数「N」をあらかじめ割り出すためには、残りの「α、 ES、 1-β」の三つが決まらないと計算できません。αは5%や1%の有意水準なので問題ありませんが、ES(効果量)と 1-β(検定力)を定めなければなりません。J. Cohenは 「1-β(検定力)」を暫定的および慣例的に「0.8」と設定しています。そして、残った「ES(効果量)」を解説しつつ、表1に提示しているわけです。
 注 意  J.Cohen(1992)の数表(p.158)に示されているデータ数Nは、「それぞれのグループのデータ数 (N as here defined is the necessary sample size for each group)」(同上、p.156)と説明されています。
しかし、χ2検定について調べてみると、J.Cohen(1988, 2nd Edition)の本では、数表の数値は「必要な全体のサンプル数 The necessary total sample size N 」(p.252)と書かれ、その数表の数値はJ.Cohen(1992)の論文と同一の内容となっています。つまり、χ2検定については、どちらの数表も 「必要な全度数を示す」 ものとなっています。
こういう重要なところでズレがあったことに三ヶ月後の今頃気がついたところです。四月からの前期講義などに忙殺されていたとはいえ、大変に申し訳ありません。いまは全体を見直す時間がありませんので、とりあえず、χ2検定については「数表(1992, p.158)は全度数を示している」ことを指摘しておきます。
なお、G*Powerソフトでのデータ数は基本的に「全データ数 Total sample size」が表示されます。したがって、J.Cohenの1992年の数表を用いる場合は、ねんのため、G*Powerソフトを用いて、「それぞれのグループの度数」なのか「全度数」なのかを確認してもらえればと思います。(6/25, 2011)



  • 有意性検定だけではなく、なぜ「検定力の分析」をする必要があるのか―

    急いでいる人はこちらにどうぞ→ [検定力の分析をしないとどうなるのか?]
      
    1. データ数が極めて多いと、ほんの少しの違いでも「統計的に有意」と出てしまうことがある。 そして「統計的に有意」だからという根拠で、実質的には意味がない解釈に陥る場合がある。

    2. データ数が少ないと一般に有意になる可能性が低い。しかし「有意ではない」ということが証明されたのではなく、単にデータ数が少なすぎて「検定力」が低いためにそうなった可能性がある。
    3. 実験や研究に先立って検定力を割りだして適切なデータ数で研究を行うことができる。それによって、上の1)2)の間違いの可能性を排除することができる。
    4.   
  • つまり、検定力分析を行えば検定結果をどの程度主張して良いのかが明確となるので、結果の解釈の曖昧さを減らすことができる。たとえば―

    • 「一見してデータ数が少ないけれども検定力が大きいので、有意という検定結果を強く主張してもよい」
    • 「データ数が少なく検定力が小さいので、有意ではないという検定結果から何らかの解釈を進めてはならない」
    • 「データ数が多くて有意な結果を得たが、実質的な差が小さく検定力が小さいので強く主張する根拠とならない」
    • 「データ数が多くて有意な結果を得るとともに検定力が大きいので、有意という結果を強く主張しても良い」
    • 「帰無仮説が棄却されなかったという事実をもってたとえば「差がないことが証明された」といったような主張について、検定力が低ければ妥当ではないと判断できる」など。

  • 効果量 (Effect Size) は、帰無仮説と対立仮説とのズレの度合いの大きさを示しています。

     「二つのグループの平均値の差の検定」を例にとってみます。グループaとグループbの平均値が違っているかを検定するとき、次の二つの仮説を想定しています。

    帰無仮説H0は「二つの平均値には差がない」というものです。
    対立仮説H1は「二つの平均値は異なる」というものです。

     実際に調べてみるとすぐに分かりますが、二つのグループの平均値がきっちり等しくなることは滅多にありません。したがって、その差が少しの差なのか大きな差があるのかが重要となるわけですが、ここでさらに問題となるのがデータ数N(sample size)です。グループa、b ともに 5人ずつだとして「大きな差があった」としても、それはその標本が偏っているだけで、他の人を調べたら結果は異なっていたかもしれません。したがって、ある程度の人数を調べないといけないことは厳密な統計学を知らなくとも推測がつくところです。

     では何人ずつ調べると良いのでしょうか。実際は調査にかかる手間暇と費用など、そうした現実的な制約で何人程度まで調べることができるかが決まってきます。それほど手間暇がかからないのならば、データ数は多いことに越したことはありません。しかし手間暇やコストがかかり過ぎてデータ数を増やせないとき、それでもどの程度までデータを集めるべきでしょうか?実は、こうした状況において、検定力分析が必要となってきます。
     ここで、二つの平均値が大きく異なっている場合(そのように予測できる場合)は、データ数はそれほど多くなくとも大丈夫そうです。つまり、二つのグループ、aとbの平均値の差が大きいときはデータ数はそれほどいらない。効果量が大きいだろうと予測されるからです。
     しかし、平均値が似通っている場合は効果量が小さいだろうから、データ数を多くとらないと有意な差が出てこないと思われます。つまり、二つの平均値の差が小さいときはデータ数はある程度必要となる、ということです。
     こうした点を押さえながらデータ数がどの程度必要なのかを見てみましょう。


  •  
  • J.Cohenの表1の[Test 1] は "m vs. m for independent means" であり、
    (二つの) 独立した平均値の対比、すなわち、平均値の差の t 検定を指しています。

    「二つのグループの平均値が大きく違っている場合」、
    これを「効果量 (Effect Size) が大 (Large)という」 効果量d=0.8
    「二つのグループの平均値が中程度に異なっている場合」、
    これを「効果量 (Effect Size) が中 (Medium)という」 効果量d=0.5
    「二つのグループの平均値があまり異なっていない場合」、
    これを「効果量 (Effect Size) が小 (Small)という」 効果量d=0.2




     J.Cohenは、分かりやすい数表としてまとめる際に、効果量を「大・中・小」と分けて使いやすいようにしています。ここで、 「小 Small」の効果量とは、「違いは少ないけれども、無意味ではない程度の差がある」。「中 Medium」の効果量とは、「研究者が注意深くデータを見ればそれと分かるほど、平均値の差がそれなりに認識できる」もの。「大 Large」の効果量とは、「明らかに差がある」としていて、効果量dは 0.2 0.5 0.8 と等間隔に位置づけられています。この分け方と効果量の三つの数値は、「例えばこのくらい…」という意味で「慣例 convention」とされています。

    平均値の差の t 検定では、J.Cohenによる効果量dは次の式で定義されています。
    効果量 d=( m − m )/ σ

    ここでmはグループaの平均値、mはグループbの平均値、σ(シグマ)は標準偏差。
    この式は、二つのグループの分布がどの程度ずれているかの指標となっています。大きくずれているほど効果量が大きくなります。

    *なお、σ= √((σ + σ)/2)

    * 大変にありがたいことに検定力分析の計算を自動でしてくれるフリーソフト(英語)が提供されています。G*Power という名称です。別のコーナーで使い方を解説しているのでそちらを参考にしてください。

    * G*Powerの計算ソフトは、ハインリッヒ・ハイネ大学デュッセルドルフ校の実験心理学研究所 (Windows XP/Vista, Mac OS 7-9)が提供しています。本当に助かりますね (^_^v


  • J.Cohenの表2の[Test 1. Mean diff]の1行が、 t 検定で必要とされるデータ数Nを示しています。Table2には次の表記があります。

    「N for Small, Medium, and Large ES」は「効果量ESが 小・中・大であるときに必要なデータ数N」
    「at Power= 0.8 」は 「検定力= 0.8 として」 (つまり 1-β=0.8 )
    「for α= .01, .05, and .10 」は 「有意水準αが 0.01(1%), 0.05 (5%), 0.10 (10%) の場合」
    という意味です。




    必要なデータ数 N の表 (検定力 Power=0.8 と設定)

    注 意 J.Cohenの数表では、表示されているデータ数はすべて「一つのグループのデータ数」です。(J.Cohen, 1992, p.156)
    したがって、「二つのグループの平均値の差の検定」で必要とされる全データ数は、
    下記の表の数値を二倍にする必要があります。
    有意水準→ α= 0.01 α= 0.05 α= 0.10
    Effect Size →  Small  Medium  Large  Small  Medium  Large  Small  Medium  Large
    1. Mean diff 
    (平均値の差の t 検定)
    586 95 38 393 64 26 310 50 20
    * J. Cohen (1992)からの引用。

    J.CohenのTable 2は、検定力 を「0.8」に設定した(Power= 0.8 )ときの数表となっています。すなわち、(1-β)= 0.8 。検定力は「0.00〜1.00」の数値で、大きいほど検定力があり小さいと検定力がないことを意味します。J. Cohenは「検定力は0.8程度が必要である」と考え、これも「慣例convention」として提示しているわけです。検定力(1-β)が 0.8 よりも小さいと、第二種の誤り(β)の確率が高くなりすぎること、また検定力(1-β)が0.8 よりも高いとそれを実現するために必要とされるデータ数Nが大きくなり過ぎて実際的でなくなる可能性があること、J.Cohenはこの二つに配慮して「 0.8 」という数値を「慣例」として提唱しています。
    なお、「検定力(1-β)が 0.8 」ということは、「第二種の誤り」「β過誤」(「平均値には差があるという対立仮説」が正しいのにいつまでも採択しないでいる誤りの確率β)が「β= 0.2 」( 20%)ということです。したがって、簡単に言えば「 80%の確率で、対立仮説を正しく採択している」ことを示します。
    検定力とは…。

    これまでは、検定をした結果「5%で有意になった」とか「1%では有意ではなかった」といったことだけを問題にしていました。しかし、こうした検定結果をどの程度強く主張してよいのかは、この検定力の大きさに依存するのです。
     そのため、「5%で有意」という結果を得たとしても、仮に「検定力 Power= 0.3 」だったならば (すなわちβ= 0.7 )、「5%で有意だったが、こうした結果は30%の確率で得られるに過ぎない。例えていうならば、こうした実験を100回繰り返して行うと、そのうち30回は<有意>という結果になるが、100中70回は<有意ではない>という結果となる可能性がある」…。
     つまり、これまでは「有意だった」と大喜びして発表していたのですが、実はそんなに簡単な話ではなかったのです。心理学はこれまで有意性検定をあがめ奉ってきたのですが、厳密に見てみると意外にも底が抜けたままだった…。J. Cohenが50年以上も嘆き続けているのも納得できます。例えてみれば、本当は両輪(α過誤とβ過誤)があるのに片側の車輪(α過誤)だけで走っていた…というか。

    *注意
     データ数が少ない中で有意となった研究では、結果的に検定力が高かったという場合が多くあります。また、データ数を十二分に揃えた研究は結果的に検定力が高かった場合が考えられます。したがって、検定力分析を行っていない過去の研究論文がすべてアウトという訳ではありません。豊田秀樹『検定力分析入門』では、検定力の事後分析を行っています。結果的に妥当といえる研究例を中心に提示されており参考になります。
    「平均値の差の t 検定」の場合、二つの平均値が大きく異なっている場合は、事後の検定力分析によっても十分な検定力を備えている例などが示されています。



 検定力分析の結果をどのように表記するか? 

  • 実際にデータを得てから行う「事後の検定力分析」の結果、「検定力 Power(1-β)=0.8765 」だったとします。この数値が計算される過程で、「効果量 d=0.5432」だったとします。なお、効果量を示す指標 (Effect size index)は、検定方法によって異なります。t 検定の場合、J. Cohenの効果量指標dを用いていますが、χ2検定の場合の効果量指標は、J.Cohenによる指標はωとなっています。(それぞれの指標で示される効果量の計算式が異なるためです。詳細はJ.Cohen(1992)を参照のこと。)

    したがって、例えばこんな感じの書き方になるでしょう―「t 検定による効果量はd=0.5432、検定力は0.8765だった」とか、「t 検定では、J.Cohenの示す大きな効果量(Large)の0.5を上回るd=0.5432となり、検定力は0.8765と十分に大きかった」等々。
    なお、文末に端的に示す場合は「…であった (Effect size:d=0.5432、(1-β)=0.8765)。」等々。

    したがって、従来の有意性検定と一緒に表記するときは「…であった (t=2.468、 p<0.05、ES: d=0.6000、1-β=0.6455)。」
    あるいは「…であった (χ2=12.3456、 p<0.01、ES:ω=0.5432、1-β=0.8765)。」といった感じでしょうか。

    いずれにしても、「 事 後 の検定力分析」については
    ・効果量(Effect size)を効果量指標(Effect side index)の記号1文字(d、ω、…)を用いて「d=……」などと示すこと。
    ・検定力(power)を 「1−β=……」の形などで示すこと、この2つの表示が必要となります。



 検定力 「1−β」とは 

  • ここまでの解説は、研究に先立ってどの程度のデータ数を揃えたらよいかという視点で述べてきました。ここでは、検定力の本体「1-β」とはどういうことを意味しているか、少し詳しく解説していきます。特に…
    「第一種の誤り Type I エラー」「α過誤」と対比して
    「第二種の誤り Type II エラー」「β過誤」について解説します。

    α:帰無仮説が正しいのに誤って棄却してしまう確率
    β:帰無仮説が間違っているのに棄却しないでいる確率。または、対立仮説が正しいのに採択しないでいる確率
    1−β: 検定力「1−β」とは「正しい対立仮説を採択する確率」を指します。

    ここで基本的なことは「αが1−βになるとは限らない」ということです。つまり、αとβは直接結びついていないために、それぞれ個別の対応をしなければいけないということなのです。これまではαのみに気をとられていたけれども、それでは不十分なのでした。
    ここでまた「平均値の差のt検定」を例にとって説明をします。有意水準として知られているα=0.05 , α=0.01 とは、「帰無仮説を誤って棄却する確率」ですが、それが0.05 とか0.01 とかと小さいので(5 %, 1 %)、そうしたリスクを冒しながら帰無仮説を棄却するわけです。つまり、「二つの平均値は同じとは言えない」ということが、95%あるいは99%の確率で主張できるとしているのです。

    帰無仮説H0は「二つの平均値には差がない」というものです。
    対立仮説H1は「二つの平均値は異なる」というものです。

    有意性検定の理屈としては、「グループaの平均値とグループbの平均値が同じだと仮定して計算してみると、そんなにずれた平均値が偶然得られる確率は0.05 あるいは0.01 しかない」と実際に計算が可能です 。さて、そういうことだったら、平均値が同じだったとした想定がおかしい。したがって、0.05 とか0.01 とかのα過誤の確率を含みながらも、帰無仮説を否定して「二つのグループの平均値は異なっている」という対立仮説を採択する、という筋書きです。
    * 具体的な数値が与えられるので、特定の分布の元でそうしたことがどの程度起きるかをきっちり算出できるのです。

     さて、対立仮説「二つのグループの平均値は異なる」という仮説を採択するのはいいのですが、でも一体全体どのくらいずれているのでしょうか? グループaとグループbの身長差だとして、それは平均値で1-2 センチのずれなのか10数センチのずれなのか…。研究を始めたばかりならば、そのことはまだ分かっていませんから自信を持って主張できる数字は見当たりません。つまり、対立仮説においては、あらかじめどの程度のズレがあるという明確な設定ができないので、一つの数値だけをきっちりと提示することができません。つまり、対立仮説は「差がある」と抽象的に言うだけで、それがどの程度の差なのかを具体的に主張してはいないのです。このことは「帰無仮説が正しいのに誤って棄却してしまう確率」α過誤というテーマとは、直接的に結びついていないことが明らかです。

    * 第一種の誤りの確率αは、帰無仮説が成り立っているとする前提の元でいわゆる「 p値 」を算出して対比されるのに対して、第二種の誤りの確率βは、対立仮説が成り立っているとする前提の元で帰無仮説を棄却しない確率を計算しています。このように計算そのものの内容が異なっています。

 


 検定力を図で見る 

  • 検定力分析とは、簡単に言うと、これまで行われてこなかった「β過誤」の問題をきちんと取り扱うということです。従来は有意水準 5%や 1%としてよく知られている「α過誤」だけに注目して、「β過誤」についての扱いがなおざりになっていたのでした。以下では、「平均値の差のt検定」におけるt 分布を図示して、α過誤とβ過誤がどういう構造をしているかを見ていきます。

    ・「平均値の差のt検定」二つの独立したグループG1,G2:グループ内のデータ数は50,50と同一。
    ・有意水準:α=0.05 (5%)
    ・両側検定:このためt分布の両側のそれぞれ2.5%ずつが棄却域となる。
     両側検定とは、対立仮説「2グループの平均値は異なっている」と設定している。
     片側検定とすると「G1の平均値はG2よりも大きい(または小さい)」と想定。
    ・効果量:小(Small)=0.2、中(Medium)=0.5、大(Large)=0.8の三つを想定した。
     それぞれの効果量は、二つのグループの平均値のズレが(小・中・大)と設定している。

    赤い線で描かれているのがt分布であり、α/2、すなわちt分布の右側及び左側のすそ野で、それより外側の面積が「0.025」となる個所が緑の線で区切られています。
    従来はこの「両側の赤い面積(α/2)」だけを扱っていたのですが、「β過誤」すなわち「対立仮説を採択しない誤り」を示す「青い面積」との兼ね合いを考慮するのが検定力分析なのです。なお、検定力Powerの大きさを示す確率(1-β)は、βの反対側にあり、「(1−β)側の面積」で示されています。
効果量=0.2 と「小」のとき、βの分布が重なっており、検定力(1-β)=0.1676と極めて小さい。
効果量=0.5 と「中」のとき、βの分布の重なりが少なくなり、検定力(1-β)=0.6968とかなり大きい。
効果量=0.8 と「大」のとき、βの分布の重なりが極めて小さく、検定力(1-β)=0.9772 と大きく、β過誤の確率は0.0228と小さい。
* この図はG*Powerの分布表示機能を用いて作成しました。

(編集中…)
   

* 無断転載をお断りいたします。
* このコーナーの説明はご自身の責任でご利用ください。
 
 (C)All Rights Reserved by Toshiharu Kasai 2011