検定力分析 by 葛西俊治

[2/23, 2023]

検定力分析　元年…
～　有意性検定の効果を知るために　～

―　Since 2011 ～　2023　―

葛西俊治
札幌学院大学名誉教授 (元・札幌学院大学臨床心理学科教授)

←クリックして検定力分析メニューを表示

○2023年２月　○適宜メンテしていますー(2023/2/23)

　知人がイギリスで修士レベルの統計分析の科目履修中。さすがにEffect Sizeは常識になっているようです。
時代は少しずつ、それでも確かに進んでいます…。
　近頃はChatGPTやBingのチャットAIなどが出てきて、そのうちにデータを示して「何々分析をやってみてね！」と打ち込むと分析結果とレポートが出力されるようになるのでしょうね…。
　　※自作の｢カイ二乗検定電卓」(ソフト)もどうぞご利用ください。検定力分析の項目も含んでいます。

○2019年度の放送大学「心理統計法」(担当：豊田秀樹)は公認心理師資格用の科目から、はずれました。(2021/10/20)

　同科目はベイズ統計学に特化した内容だったため、公認心理師資格に関わって必要な｢有意性に基づく統計検定」の内容 (左側フレームの検定方法)を全く扱っていなかったためです。それにより、同科目を履修しても公認心理師資格要件を満たさず、従来通りの「心理統計法」の再履修が必要となっています。

○2020年三月で定年退職しましたがサイトは維持しています。

○ G*PowerのWindows10版、macOS-11版のダウンロード元を確認しました。(3/23, 2021)

　放送大学では、早稲田大学・豊田秀樹教授が「心理統計学」の講義を全面的に切り替えてしまいました。従来の有意性検定を扱わず、ベイズ統計学を基本に据えたのです。勉強中の知人から、心理統計学が分からないので「学生さんにバイトで教えてもらいたい」と依頼されたのですが、テキストを見てみると、普通の心理学科の学生は全く習ったことのない内容のオンパレードでした。ということで、実に大変なことになっていました。
　
　これは、統計をめぐる問題状況を根こそぎ変革したい、という豊田教授の強い意志の感じられる変更です。APA(アメリカ心理学会)での基本姿勢をそのまま進めていく方向であり、従来の有意性検定だけでは立ち行かないことは、検定力分析のサイトを立ち上げながら感じていたのですが、そのさらに一歩前へ！という事態になっていたわけです。　MCMC(マルコフ連鎖・モンテカルロ法)やHMC(ハミルトニアンモンテカルロ法)…などが放送大学の試験に出る…ということになりますが、通常の統計学も習ったことがない学生はひたすら暗記に頼ることになりそうです。

いずれにしても、従来の有意性検定世代の学生・研究者の方には、まずは検定力分析の基本を知るところから次の段階へと進んでもらいたいと願うものです。
(12/28, 2019)

→ 紀要・論文・研究サイト

～　2018年のコメント　～

-「対応のあるデータのt検定」事前の分析 New! 　

(7/12, 2018追加)

-被験者間･被験者内要因の「反復推定分散分析」事前の分析 New!

(7/11, 2018追加)

検定力分析のこのサイトを2011年に立ち上げ、2018年の今日まで7年の歳月が過ぎました。
大学の雑務などで忙殺されていた年数の長さを思うばかりですが、感慨深いことが2点―。

必要なデータ数についての議論が、検定力分析によってすっきりしたこと。

*理論的には昔からスッキリしていましたが、その感覚を共有してもらえること、です。

この7年の間に、検定力分析が「常識」になることはなかったこと…。

　この2点目については、Jacob Cohenの苦渋に満ちたかつての言葉「なぜα過誤ばかりみて、β過誤を評価しないのか?!」が､依然としてそのまま通用するようです。(少なくとも､私が関心をもっている心理学の領域に関しては、ですが)。
それでも、院生達には「検定力分析…というものがあって、必要なデータ数が把握できること。また、検定が有意になったとしても、データ数が少ないときはその主張する力はあまりないことが多いが、検定力が大きいときはデータ数が少なくとも卑屈になる必要はないこと。また、検定が有意になったとしても、大量のデータを用いて微少な差が見つかったという場合は、データ数が多いために有意になっただけで、実学的にはそれほど意味がないかもしれないこと」…といったような言説が、それなりに通用してきたように感じます。
　少なくとも、「5%水準で有意だった」ということだけから、検定結果を絶対視したりすることもなく、盲目的に信じ込むことが少なくなったようなのは、一つの前進といえるでしょう。(2/10, 2018)
　

※ところで、2017年は「歴史的なＡＩ元年」だったと言えます。1)Googleの囲碁ソフト「α碁」が中国の囲碁名人を打ち破ったこと、2)日本では将棋ソフトPonanzaが日本将棋連盟の名人を打ち負かしたこと。これによってＡＩによるパターン認識の能力が人間の判断力を越えた、といえるからです。

　これに関連して私が感じたことは、「統計的検定によって届く世界の狭さ、貧弱さ」でした。たとえば、心理臨床の世界では、心理アセスメント(いわゆる性格検査)が一定の地位を占めています。簡単に言えば、統計的検定を前提にして、｢この人は何々の傾向がある」と唱えることに価値があるわけですが、ＡＩはそうした貧弱な判断に留まらず｢その人」についての判定をする多面的な判定能力を持ちうるからといえます。
　まずはある程度の大きさのデータをＡＩに判別させれば良いだけであり、何故そうなのかについてＡＩは人間の常識的な理解力の範囲で説明することはできませんが、｢使える」ことになります。
　これを機に、心理学は統計的検定をやめてみる…ということで、ようやく21世紀的なガクモンへと進みうるようにも思いますが、その場合の基軸は如何?!閑話休題。

検定力分析元年2011 ―

　有意性検定の効果を知るために

　2006年、「心理学的研究における統計的有意性検定の適用限界」(札幌学院大学人文学会紀要第79号, pp.45-78, 2006)に有意性検定の問題点をまとめたとき、有意性検定が実際にどの程度の「検定力」をもっているかを示す「検定力分析 Power Analysis」についてふれておく必要性を感じていました。しかし、それを扱う時間的余裕がなく、また有意性検定によって自らの研究を権威づけているはずの心理学的研究においても長年、それほど取りざたされずに推移していたこともあってそのままになっていました。
　
　そうした状況が明らかに変化していることを痛感したのは、2009年度に一年間、イギリスで留研をしていたときのことでした。いくつかの研究会や国際会議の場で、研究発表者が発表を終えて質疑に移った際、フロアーから「How was the power analysis of your study ?」と問われ、発表者が立ち往生する場面に出くわしたときでした。ロンドンで開かれたある国際会議においては、発表者にはそうした質問の意図そのものが伝わっておらずまた司会者もそれに対して特にコメントすることもなく進行していたこともありました。この研究者には後でパワー･アナリシスについて話す機会がありましたが、10年ほど前に博士号を取得したその方は、それまでに検定力分析について学んだことがない(記憶にない)ことも分かりました。欧州各国や専門領域によって状況は様々のようでしたが、心理療法を含む広義での心理学領域では、Power Analysisは依然として市民権を得ていないことを実感したのでした。
　
　ところで、つい最近、豊田秀樹『検定力分析入門―Rで学ぶ最新データ解析』東京図書(株)を紹介されました。これは2009年11月に初版が出たもので、検定力分析に必要な計算ができる統計ソフトRの使い方を含む本でした。私はまだRを使ったことがないのですが、簡便に計算結果が得られるのは実際的で役に立つと感じました。この本は、そのときたまたま読んでいたJacob Cohen "A Power Primer (検定力入門)" Psychological Bulletin, 1992, Vol.112, No.1, 155-159 の内容を統計ソフトRを用いて的確に再構成していることも分かりました。
　
　といったような経緯から、臨床心理学研究科での修士論文作成や学科の卒論作成に際して、検定力分析を用いて適切なデータ数や効果量(Effect Size)を考慮しながら実験の計画や調査研究を指導するという、次の段階に至ったと自覚しました。とりあえずは、私自身が準備を進める必要があるため、このサイトにそうした資料を少しずつまとめていきたいと思います。
　と言うわけで、「検定力分析元年」とは、私自身にとっての自戒を含んで、今年から進めていきます！という意味です。

(2/22, 2011)

　心理学論文作成のために　

　このサイトが対象としているのは、統計一般になじみの薄い学生や、検定力分析についてあらためて調べてみようとしている方です。おおむね、有意性検定がどういうことか概略的に理解していることを念頭に置いています。
　
　かつては理系の学問だった(?!)心理学が現在ではおおむね文系の学問としての位置づけにあるため、学生の多くは統計学やその基本となる微積や線形代数、確率論と組み合わせ理論などの数学を習っていなかったり、十分な訓練を受けていません。特に私が所属している臨床心理学科では「こころ」の問題に関心を持ってやってくる学生が中心のためか、まさかトーケイが心理学の中で重要な地位を占めているなどとは夢にも思っていません。しかし、曖昧模糊とした「こころ」を扱うという立場に立つのであれば、その分かえって理知的･理論的に考える能力が同時に必要とされるものです。また、四年になり卒論でアンケート調査や実験を行うのであれば、統計的検定は必須でありそれなりの勉強が必要となってきます。
　
　それに対して、修論を書くことになる修士課程の院生にとって有意性検定程度のことは常識ですが、こと検定力分析については残念ながら特に学ぶ機会もなく推移してきたといえます。そうした状況は私自身にも当てはまります。これまで投稿して学会誌などに掲載された研究論文についても、査読者や編集者から「検定力分析はどうでしたか?」といった指摘は一度もありませんでしたし、「必要なデータ数を検定力分析で確認しましたか」などのコメントをされたこともありません。このことは他の研究者でもほとんど同じ状況でした。
　
　豊田秀樹『検定力分析入門』にはすでに刊行された研究論文が引用されており、必要なデータ数を踏まえているか否かという事後分析(Post hoc Analysis)の例が多数載せられていますが、そうした指摘は本来、専門研究誌の査読者や編集者がすべきだったはずです。これについては、J. Cohenやその他の検定力分析の研究者も同様に指摘しており、査読者らがなぜそうした指摘をしないで来たのかと嘆いているわけです。Jacob Cohen(1969)の著書 "Statistical power analysis for behavioral sciences 行動科学のための統計的検定力分析" (および1988年の第2版)は、検定力分析に関わる研究者が頻繁に引用しているものですが、それに先立つ1962年の論文でJ. Cohenはすでに「なぜ検定力分析を行わないのか?」と疑問を投げかけていたので、ほぼ半世紀近くにわたってそうした無視が慣行となっていたことになります。(詳細はこちら)
　
　2011年から札幌学院大学大学院臨床心理学研究科の「心理学研究法特論」では、同研究科・森直久教授の「心理統計法特論」と連携しつつ検定力分析を取り扱い、修論の作成に際して必要なデータ数や有意性検定の効果量(effect size)について理解を深めるとともに、そうした検定力分析を実際に行うためのサポートを開始することにしました。というわけで、このサイトには私自身が勉強しつつあるプロセスに沿って気がついたことなどをまとめ、理解の一助としたいと考えています。

(2/22, 2011)

　このサイトについて
　
　このサイトの左側にメニューが表示されていないときは、このサイトの一番上にある [検定力のすすめ] のバナーをクリックしてください。
　
　なかなかまとまった時間がとれないのでメニューの項目は少しずつしか増えない状況です。「分散分析」の検定力分析のあたりで停留状態です。これは、多要因配置の場合に、豊田(2009)による結果と、G^*Powerによる分析結果と、G^*Powerのサイトで紹介されている数値にそれぞれに違いあるためで、この点の最終確認ができないままの状態です。なお、一要因については特に問題はありません。なお、いずれの場合も、「被験者間」の分析で、被験者の異なるグループの間での分散分析についてです。
「被験者内」の分析、つまり、同一被験者が反復して行っているような場合、たとえばt検定でいうと「対応のあるt検定」に該当する分散分析については、その検定力分析の内容はまだ取り扱っていません。

　このサイトを開設してからいろいろと質問やご指摘もありますが、なかなかまとまって進める時間がないためその点はお許しください。これまでにサイトを利用していただいた方は、大学名でいうと、愛知大学、広島大学、米・ワシントン大学、京都大学、東北大学、神戸大学、兵庫医科大学、名古屋市立大学、目白大学、杏林大学、名古屋大学、京都大学、東京大学、広島大学、自然科学研究機構､東北大学、徳島大学等々多数でした。今後も少しずつ拡張していきますのでどうぞよろしくお願いいたします。　

(10/14, 2011)

　検定力分析　2016年度にて
　
このサイトを始めたが2011年なので、それから五年ほど経過しました。この間に、臨床心理学研究科の教員間や院生を含めて、「αだけではダメで、きちんとβも評価しなければ」という意識が共有されてきました。例のG*Powerソフトがあるので、簡便に検定力分析ができることも大きいです。サイトにも検定力分析関係の記事も少しずつ増えてきていますが、肝心の心理学関係の研究誌では、相変わらず(1-β)の評価を含まない論文も普通に掲載されています。
　査読担当の研究者が今の院生などに切り替わっていく中で状況も少しずつ変わるのだろう…と、気長に考えているところです。
　
　それにしても、論文を読んでいてどうしても気になるのが、「数百人の大きなデータを用いて有意な結果を得て議論している。しかし、各グループ間の数値の差がそれほど大きくない(効果量が小さい…)のに、鬼の首を取ったように自説を主張する」論文の位置づけです。
そうした研究の位置づけは効果量の小ささに見合った位置づけにあるものとして理解すれば良いのですが、そうした仮説･解釈が決定的であるかのように思われて、次の人たちの研究に強い影響を与えてしまうことが気がかりです。
　
　豊田秀樹による『検定力分析入門』には、過去の研究でそうした問題を抱えている論文を指摘しているので、そうした視点がきちんと根付いてほしいと願っています。
　
*3要因(被験者間) 分散分析の検定力分析のところで止まったままで現在に至っています。3要因の分析ができるソフトもいろいろあるので確かめて見ると良いですが、余裕がなくそのままの状態です。申し訳ありません。

　(6/5, 2016追記)

検定力分析 元年… ～ 有意性検定の効果を知るために ～

～ 2018年のコメント ～

検定力分析元年2011 ― 有意性検定の効果を知るために

検定力分析　元年…
～　有意性検定の効果を知るために　～

～　2018年のコメント　～

検定力分析元年2011 ―

　有意性検定の効果を知るために