「関連性評定に基づく質的分析」サイト

 葛西 俊治
(元・札幌学院大学心理学部臨床心理学科教授)

エクセル統計の数量化理論V類による分析について 


エクセル統計2015へと更新されたので、それに合わせて説明を追加いたします。
分析そのものについて実質的に違いはありませんが、
表示などが変わったので参考までに解説いたします。
 
*利用ソフトはWindows版「エクセル統計・数量化V類」Excel2010/2013用です。
使用しているOSはWindows7、ソフトはExcel2010です。
(7/18, 2015)


このサンプル・データは [数量化理論V類による本文中の図についての補足]に掲載しています。そちらでは、SPSS/PASWでの分析の実例を説明しています。




元のデータは上の内容ですが、SPSS/PASWでの数量化理論V類の分析では、実際には、以下に示すようにExcelファイルの右半分に新しいデータを追加したものを分析対象にしています。


●例えば、「L11x」というカテゴリー・ラベルに該当するカードは、「L11」というカテゴリー・ラベルに含まれないカードすべてです。また、「L21x」というカテゴリー・ラベルに属するカードは、「L21」に含まれないカードすべてです。右半分の追加データは、このように、L11 L21 C4 L12 L22 L31 のそれぞれのカテゴリーに含まれないものから構成されるカテゴリーとして新規に追加されています。


 
データはこちら→ [Excel2015データ]

※ 右側の追加部分( H2からM9まで)は、もとのデータの{1,0}パターンを逆にしたものです。
これは IF文を使うことで簡単に作成できます。
マス目 H2 の所に「 =IF(B2=1,0,1) 」と入れると、B2が1なので 0 が入ります。続いて、この部分を H2 から M9 までコピーするとできあがります。
 
   
SPSS/PASW版の数量化理論V類の分析で、なぜこのようにして分析しているのかは[数量化理論V類による本文中の図についての補足]で解説していますが、まずはこのデータを「エクセル統計数量化V類」によって分析してみることにしましょう。
    データの範囲として A1〜M9 をあらかじめ選択しておきます。
データの1行目にラベル名を記載できるので、1行目のデータ・ラベルまでも含めて「データの範囲」として指定します。


次に、「W多変量解析」をクリックするとメニューが表示され、その中に「数量化V類(S)」が表示されます。
「数量化V類」をクリックします。


「データラベル」のところには、変数リストから「card_num」を選んでおきます。
「オプション」では、「データの種類:」として「0/1型」を選びます。

とりあえずそのまま「OK」をクリックして数量化理論V類による分析を実行します。
データ量にも依りますが数秒程度で分析が終わり、
エクセルシートの下側に、Sheet2などとして分析結果が追加されます。



エクセル統計数量化V類による分析結果



数量化理論による分析では、二つの数値が重要です。
一つが「各軸の固有値表」、
もう一つが「カテゴリースコア」です。

それ以外の数値はグラフを書いたりするために使用する数値で、結果を見やすくするために用いられています。


固有値が大きいほどその軸によって説明される度合いが大きく、ここではT軸の寄与率が57.4%、 U軸の寄与率が24.6%、V軸の寄与率が 9.7%となっています。
(なお、相関係数の二乗が固有値に等しい)


カテゴリー・スコア表では、L12などのラベルが第T軸・第U軸・第V軸でどのような数値(カテゴリースコア)となっているかが表示されています。

何軸までを採用するか?

何軸までを分析と報告に用いるかについては、一概には言えないですが、1)固有値の値が極端にがくんと落ちているところの一つ前までを軸として採用する(因子分析におけるスクリープロットの考え方) 2)研究上の理由や状況から2軸までとか3軸までとかと「宣言して」採用する、といったところです。
ここでは、固有値は 第T軸0.5742、 第U軸0.2461、 第V軸0.0969となっているので、第U軸まで採用するのが自然です。

軸の名称を考える

「グラフ用データ」として、カテゴリースコアの大きなラベル名(カテゴリー)から少ないラベルの順に表示されています。
たとえば第T軸については、カテゴリースコアの大きなラベルは L12,L22,L31…となり、…L31X L21, L11となっています。
軸の両端に位置するラベルに基づいて、その軸に意味づけをして命名していきます。
ここは因子分析と同様で、ラベルの意味内容に基づいて適確な名称を考えることになります。

※このとき、L31X のようにXのついたラベルは無視します。これは、固有値計算を可能とするために追加したカテゴリーのため、Xのついたラベルは結果の把握には一切用いません。


この結果は、 [SPSSでの分析結果] と一致しています。確認してみてください。



●なぜ L11X, L21X…などのカテゴリーを追加して分析を行うのか

数量化理論V類による分析では、項目数が極端に少ない場合や、ケースとラベルの対応関係が特殊な場合、そして特にKH法で得られる「カードとラベルの対応表」では、固有値計算にエラーが出る場合があることを経験的に確認してきています。

普通は固有値の数値が、第一固有値、第二固有値、第三固有値の順に「0.753, 0.531, 0.332…」などのように小さくなるのですが、何らかの計算エラーがあると、それがたとえば「1.000, 1.000, 1.000…」などと明らかにおかしい結果となります。(必ずしも「エラー」と明示されないので注意。)


ちなみに、「L11x L21x 」などのカテゴリー・ラベルを導入しない元のデータ(左側に表示)のままで数量化V類で分析すると…。


このように固有値が{ 1.0000 1.0000 …}といった異常な数値となります。これでは軸の解釈には使えません。
この数値ではダメなので間違わないように × を付けておきました。







ところで、元々、SPSS版の数量化理論V類のソフトでは、「変数の最小値・最大値設定」のところで、最小値{0} 最大値{1}と設定できるようになっていて、実はこのように設定すると、結果的に上に示したExcelデータのように「L11 L21 C4」だけではなく、「L11x L21x C4x」といったカテゴリー・ラベルとそのデータを自動的に追加した形で分析するようになっています。

このように分析すると次のようなメリットとデメリットがあります。

  • メリット : 固有値の計算自体でエラーが起きることが極めて少なく、分析結果が容易に得られる。したがって、軸の意味づけや命名を行うことができる。


  • デメリット:カテゴリー・ラベルの個数を実質的に二倍にしたため、そうでない場合と比べて最大固有値の大きさが数十%程度も小さくなる。
 KH法では、自由記述内容などをカード化して集約したものに何らかの軸や次元を見いだすために数量化理論V類を利用します。得られた軸・次元の両端に位置するカードやラベルの意味内容に基づいて、因子分析で行うように、軸や次元に名前をつけます。その際、軸の両端に位置するものに基づいて判断するため、軸の中央、原点付近のカードやラベルはあまり関係がないのです。
 たとえば「L11」についてのデータと正反対のデータをもつ「L11x」は軸の両端に寄ることはなく中心の原点付近に位置します。つまり、「軸の解釈と命名」に「L11x」などの" x "のついたカテゴリー・ラベルは関与しないので特に問題にならないのです。
 
 デメリットとしては、カテゴリー・ラベルの数が二倍になり、得られる最大固有値の値も必然的に低下するため、その軸の重要性についての議論が難しくなります。ただし、数量化理論V類の利用は、統計的な意味合いでの利用ではなく、質的データである記述の集約内容に何らかの構造を数理的に見いだすことに主眼があるため、それほど大きなデメリットではないと判断しています。
 
 通常の分析で特にエラーが出ないようなデータ内容であれば通常の分析を進めれば良いですが、SPSS/PASWを前提としたアプローチでは、すでに示した分析上の手法は、数量化理論V類による分析を進める際のオプションという位置づけにあります。KH法による言語的記述内容の集約の結果、「ケースとカテゴリーの対応表」がある特異の構造をもち固有値計算ができない場合があるため、その問題を回避するための手段…ということなので、ここから先は分析方法、分析手法について研究者の考え方やスタンスの問題だと言えるでしょう。
 なお、これまでの経験から、言語的記述の集約結果を数量化理論V類を用いて分析するというKH法のアプローチはかなり有効であるという手応えを感じて今日に至っています。そのため、これまでに示してきた手法はそれを実現するための分析上の一方法として有効と考えています。  

[関連性評定質的分析のトップページに戻る]



「関連性評定に基づく質的分析」サイト
 (C) 札幌学院大学人文学部臨床心理学科 葛西俊治, 2007-2015


*無断転載をお断りいたします。