目次
見出し
速習SPSS
最終修正日時 2010/11/18(木)10:18:39
●データ処理の基本
データセットの作り方
※一般にデータ入力はエクセルが,シンタックスの作成はエディタ(秀丸など)が便利。もちろん,直接データを入力したり,シンタックスをシンタックスエディタで書いてもかまわない。
入力(エクセル)
IDは文字属性にする。数値だと頭の0が飛ぶ。005000と5000が同じ扱いになる。
エクセルで入力する。文字属性を忘れずに。
列に変数が,行に個人が入るようにする。
入力時点ではデータの変換をしないで,考えずに入力できるようにする。分析失敗の最大の原因は,入力ミスで,入力ミスの最大の原因は,機械的に入力しないことである。
つまり,例をあげると,年齢を年代に直しながら入力するというような変換操作を伴う入力はいけないということである。せいぜい項目の並びに順に1,2とするくらいにする程度。 例:「性別(男,女)」という項目では,男は1,女は2,記述なしを0にする位である。
複雑なルールの入力は,その一貫性がとれないことがあり,望ましくない。
変数名の付け方
・1行目は変数名
・変数名は短く
思い切り簡明なものにする。エクセルで自動的に作成される程度がよい。アルファベット+数字2桁を推奨。異質のアンケートがある場合などはアルファベットを変える。V1,V2,V3...N1,N2...。性別等の属性は(大量になければ)内容がわかる名前のほうが簡明。
・変数ラベル
変数にはかならずラベルをつける。意味がわかる最短の長さで。もしくは同系統の全変数で同じ長さのラベルをつける。短い変数ラベルをつけられる場合は,変数名を「V1_犬識別可」というようにつけるのを推奨。
なお,エクセルでこの形式の変数名(V1_犬識別可,またはV1 犬識別可[数字と文字の間は半角空白])にしておくと,SPSSで読んだ場合には,V1が変数名,「V1_犬識別可」がラベルに自動的に入力される(SPSS Ver12まで。現在のV14は変数に入るのみ)。ただし変数_の後が英数字のラベルだとそのまま全体が変数名になってしまう。
・変数は原則数値扱い。
文字だと後で面倒。(エクセルファイルからの)自動変換だとこうならないことがあるので,確認する。
・変数値ラベルをつける
変数値ラベルも必ずつける。例:sexという変数の中身は1,2とするとそれに男,女という変数値ラベルをつける。これをさぼると後で忘れて痛い目をみる。
・独立変数を事前に用意
属性変数,あるいは独立変数として使用する変数でカテゴリ分けをする場合は,使う分だけ最初に作っておくと後々楽かも知れない。
例えば,中1,中2,中3,高2,高3,計画,臨床,...というように最小限の区分を基本として通し番号をつけておき,それから{中学,高校,大学}とか{福祉学部,文学部,経済学部}というような分類を作って変数にセットしておく。どのみちやるならば。IF文で大きくする方が楽。
・変な値を示す変数の作成
変な値を示す変数を作っておく。完全を5として,一部欠損ありデータを4,さらに2つくらいの変数が落ちているのを3,...というようにしておく。
データレベル4以上を処理するとかわかって見通し良くなる。
・グループ変数の設定
(SPSS)変数のセットを作ると便利〜グループ変数
分析の際には,かならず何をやったかを示しておく(シンタックスを出力する設定)。新たに作る分析用属性変数等は形成式を反映するラベル名にするということも考えて良い。
分析の手順
研究の目的に従って,データの形式を決める。
→必要な独立変数の再構成
細分割するかどうか。例えば連続量の変数を区分する(上中下など)。必要な統計量の決定(3分割同士の比較なら順位相関,連続量なら積率相関など)
分析結果のイメージ化
言葉にはできても具体的にどうすればいいかわからない場合がある。自尊感情と思いやりの関係を検討するのが目的でも,単に2つの変数をそのまま得点化して連続量同士の相関1つ出すだけでいいのか。それぞれが因子を持っていると仮定して因子分析をした結果複数の因子が得られたら(仮に各4,3個とする),4×3の12通りの場合ごとに計算をするのか。男女別か,年齢別か,学年別か,...と果てしなく数が増えていく。細かければ細かいほどいいわけでもない(各データを全部統計処理せずに見ればいいことになってしまう)
自由記述のデータの分析(エクセル)
自由記述をそのまま書き込んである場合
用語ごとに区切りを手で入れるか,構文解析ソフトウェアを利用する(茶臼など)。空白等で区切ってある場合は,テキスト区切りを使用して,別々のセルにする。
[データ(D)]-[区切り位置(E)]-(以下略)
データが区切られていない場合は,構文解析ソフトウェアを使用するしかない。
以後は,ソートをかけてデータを並び替える。
なお,漢字データの場合はふりがなを表示させてそれでソートするのもよい。他のファイルからデータを持ってきた場合はふりがなの情報がないので,作成する。その後ふりがなでソートする。
●SPSS SYNTAX TIPS
シンタックスとは
SASの命令のように基本的には,エディタを用いて処理の手続きを記述することにより,命令を実行する機能。1,2回ですむならマウスで選択するほうが楽だが,同じ様なことを繰り返す時にはすごく楽。例えば変数が100個あったとして,その変数の値を全部10倍するのは,シンタックスならすぐだが,マウスでクリックしていくのは大変である。また,一回しか分析しないつもりでも,データにミスが見つかったり,データを分割して処理する必要が生じたり(学年別とか性別とか)するので,ある程度以上の分析をする場合は,シンタックスを利用する方が楽である。
またSPSSでは,一度マウスにより選択した命令やオプションを即座に実行せずに[張付け]を選択することにより,そのシンタックスがわかるため,それを多少の手直しで利用する事が可能。エディタやワープロ等の他のアプリケーションとコピー&ペーストができるので,手間もそれほどかからない。
コメント
コメントは,プログラムを一時的に実行したくない場合に使われる。
また,処理の内容をプログラムを利用する人に伝えたいときに使われます。こちらを目的とする場合は,コメントとプログラムの内容が食い違うことがあるので注意が必要。
コメント領域の先頭に「*」を入力する。この記号から「.」(ピリオド)までがコメントになる。
* この文はコメントです.
/* この文もコメントです.
シンタックスの使い方
シンタックスエディタを使って入力
実行は「」〜
現在開いているファイルに対して実行される(SPSSはVer13までは,一度に1つのファイルしかオープンできない)。
クリックでやったほうが楽な場合はそれで行い,反復を大量に伴う命令の実行などはシンタックスのほうがはるかに楽。
なお,シンタックスは通常のクリックを実行してもその動作が記録されているのでこれを上手く使うとほとんど命令を覚えていなくてもなんとかなる(エクセルのキー入力マクロ,秀丸のキーボードマクロと同じ)。
例:1個の変数に対して操作し,それを残りの変数に対して操作する。
v1〜v10 の変数に2桁の数値があるものとする。本来小数値だが,少数点を入力するのが面倒なので2桁の整数で入力してそれを後で1/100にしようと思う。変数は20個でも100個でも同様にできる。
------------------------
DO REPEAT i=v1 TO v10.
COMPUTE i=i/100.
END REPEAT .
------------------------
なお,Windows版SPSSでは登場した変数の順でTO命令が使えるようである。
すなわち han nya ha ra mi というように並んでいたら,
------------------------
DO REPEAT i=han TO mi.
------------------------
のようにTO指定ができる。
とぎれとぎれに指定する場合は
------------------------
DO REPEAT han nya mi.
------------------------
のように指定する。
シンタックスの注意点
・命令(コマンド)はすべて半角英数字
・コマンド中に全角スペースは不可
・大文字小文字区別なし
・コマンドの最後には必ず「.」(ピリオド)が必要
・改行は普通は意味がない。長く続く文は途中で適当に改行してもよい。しかし時々動作がおかしいことがあるので,必ずSPSSビューアで結果を確認すること。
・空行はコマンドの終わりを意味する(ことがある〜これでひどい目にあった)。
シンタックスの自動保存
シンタックスを自動的に保存してくれるオプションがある。SPSSは,シンタックスを保存しないで変数を作った場合に,その変数がどういうものだったかわからなくなる場合がある。例えば40項目から成る変数をまず因子分析して,因子を取り出して,第一因子の因子負荷量が大きな項目を合計した得点を第一因子得点とした場合など,何回も繰り返していると,結局どの項目の合計がわからなくなってしまうことがある。このような時は基本は自分で管理するのだが,SPSSが全ての手順を保存してくれると,そのシンタックスをみれば,どういう操作の結果その変数が形成されたかがわかる。
2つ方法がある。
・「オプション」〜「ビユーア」〜「初期出力状態」〜「ログの中にコマンドを表示」〜「適用」
・「編集」〜「オプション」〜「全般」でジャーナルファイルの位置を確認する。このジャーナルファイル内にはすべての実行されたコマンドが保存されている。
ファイルの読み込み
シンタックス
-----------------------------------------
GET FILE='ファイル名(フルパス表示で)'.
-----------------------------------------
例示:
------------------------------------------
GET FILE='T:\福祉心理\豊村\testdat.sav'.
------------------------------------------
マッチマージ
mergedat.savにattrib.savのデータをidをキー変数としてマッチマージし,それをtest.savに出力する例
-------------------------------
MATCH FILES FILE='mergedat.sav'
/TABLE='attrib.sav'
/BY id.
SAVE OUTFILE='test.sav'.
-------------------------------
以下のようになる
mergedat.sav attrib.sav test.sav
============ =========== ====================
id x1 x2 id age sex id x1 x2 age sex
------------ ----------- --------------------
1 10 100 1 10 1 1 10 100 10 1
2 20 110 2 15 2 2 20 110 15 2
3 30 120 + 3 20 1 → 3 30 120 20 1
4 40 130 4 25 2 4 40 130 25 2
4 50 140 5 30 1 4 50 140 25 2
5 60 150 6 35 2 5 60 150 30 1
6 70 160 =========== 6 70 160 35 2
6 80 170 6 80 170 35 2
8 90 180 8 90 180 . .
============ ====================
データ構造の変換
以下この項はたぶんシンタックスでやったほうが簡単
横並びから縦並びへ1
================== =============
no sex x1 x2 x3 no sex n x
------------------ -------------
1 1 10 100 10 1 1 1 10
2 2 20 110 15 → 1 1 2 100
3 1 30 120 20 1 1 3 10
================== 2 2 1 20
2 2 2 110
2 2 3 15
3 1 1 30
3 1 2 120
3 1 3 20
=============
[データ(D)]〜[再構成(R)]〜
(再構成ウィザードへようこそ)
[選択された変数をケースに再構成する(C)]
(ステップ2/7) 変数からケースへ:変数グループの数
【再構成する変数グループ数】:[1つ(O)]
(ステップ3/7) 変数からケースへ:変数の選択
ケースグループの識別(G) そのまま {ケース数を使用します 名前(A):id}
置き換える変数
目標変数(T) 元の各変数の値を入れる変数
名前の欄にxと入れる 具体的な変数は現在のファイル内の変数(C)から x1,x2,x3を選択
固定変数(F) そのまま残す変数 ※後にクロス集計等で使用する
sexを選択
(ステップ4/7) 変数からケースへ:1つのインデックス変数の作成
作成するインデックス変数の数 1つ(O)
(ステップ5/7)
インデックス値の種類 連続値(s)
インデックス値とラベルを編集する 名前とラベルを適当に編集(n 変数番号)
[完了()]
なお,[次へ()]を選ぶとオプションを指定できるが略
----------------------------------------
VARSTOCASES
/MAKE x FROM x1 x2 x3
* /INDEX = n "変数NO" (3) . これは変数番号が必要なら入れる。不要なら入れなくともよい
/KEEP = no sex
/NULL = KEEP.
----------------------------------------
横並びから縦並びへ2
=============================== ==================
no sex x1 x2 x3 y1 y2 y3 no sex nn x y
------------------------------- ------------------
1 1 10 100 10 3 6 1 1 1 1 10 3
2 2 20 110 15 4 3 2 → 1 1 2 100 6
3 1 30 120 20 5 2 3 1 1 3 10 1
================================ 2 2 1 20 4
2 2 2 110 3
2 2 3 15 2
3 1 1 30 5
3 1 2 120 2
3 1 3 20 3
=================
[データ(D)]〜[再構成(R)]〜
(再構成ウィザードへようこそ)
[選択された変数をケースに再構成する()]
(ステップ2/7)
(再構成する変数グループ数):[2つ()]
(ステップ3/7)
ケースグループの識別 変数id
目標変数 名前の欄のtrans1をxに変更 具体的な変数 x1,x2,x3
目標変数 名前の欄のtrans2をyに変更 具体的な変数 y1,y2,y3
固定変数 sex(※あるだけ指定)
(ステップ4/7)
[変数からケースへ:1つのインデックス変数の作成()]
作成するインデックス変数の数 1つ
(ステップ5/7)
インデックス値の種類 連続値(s)
インデックス値とラベルを編集する 名前とラベルを適当に編集(nn 変数番号)
[完了()]
なお,[次へ()]を選ぶとオプションを指定できる。最後までいくとシンタックスへ貼り付けを選べる。こちらも手作業で修正できるので良い。そのつもりが無くても普通にできあがったシンタックスを実行すれば,同じ結果が得られる。
----------------------------------------
VARSTOCASES
/MAKE x FROM x1 x2 x3
/MAKE y FROM y1 y2 y3
* /INDEX = n "変数NO" (3) . これは変数番号が必要なら入れる。不要なら入れなくともよい
/KEEP = id sex
/NULL = KEEP.
----------------------------------------
縦並びから横並びへ
================= ================================
no sex nn x y no sex x1 x2 x3 y1 y2 y3
----------------- --------------------------------
1 1 1 10 3 1 1 10 100 10 3 6 1
1 1 2 100 6 → 2 2 20 110 15 4 3 2
1 1 3 10 1 3 1 30 120 20 5 2 3
2 2 1 20 4 ================================
2 2 2 110 3
2 2 3 15 2
3 1 1 30 5
3 1 2 120 2
3 1 3 20 3
=================
[データ(D)]〜[再構成(R)]〜
(再構成ウィザードへようこそ)
[選択されたケースを変数に再構成する()]
(ステップ2/5)
[ケースから変数へ:変数の選択()]
識別変数 id
インデックス変数 n
(ステップ3/5)
[ケースから変数へ:データの並べ替え()]
現在のデータを並べ替えますか?
いいえ
[完了()]
なお,[次へ()]を選ぶとオプションを指定できるが略
(ステップ4/5)
(ステップ5/5)
-----------------------
CASESTOVARS
/ID = id
/INDEX = n
/GROUPBY = VARIABLE .
-----------------------
変数の一括指定
-----------------------------
COMPUTE Vx=SUM(v1 TO v12).
EXCECUTE.
-----------------------------
仮変数(DOの制御変数など)
変数の前に#をつける
不要なケースの削除
或る変数が欠損しているケース全体を削除する場合など
------------------------------
* x で欠損のケースを削除 .
FILTER OFF.
USE ALL.
SELECT IF(not missing(x)).
EXECUTE .
------------------------------
欠損値のカウント
--------------------------------
compute vmiss=nmiss(v1 to v3).
execute.
--------------------------------
別の解
-------------------------------------
compute v2miss=0.
DO repeat i=v1 to v3.
IF (missing(i)) v2miss=v2miss+1.
end repeat.
-------------------------------------
配列変数とは
配列は,データを一括して扱う手法である。変数間で同じ処理をする場合などに使用できる。
配列変数の指定法
DO REPEAT 代理変数名=代理される実変数名リストまたは定数リスト/代理される実変数名リストまたは定数リスト...
変数変容コマンド
END REPEAT [PRINT}
例1 x1,x2,x3の変数の値を10倍する
-----------------------
DO REPEAT i=x1 TO x3.
COMPUTE i=i*10.
END REPEAT PRINT.
-----------------------
例2 x1,x2,x3の変数にそれぞれ10,20,30を足す
-----------------------------------
DO REPEAT i=x1 TO x3 / j=10 20 30.
COMPUTE i=i+j.
END REPEAT PRINT.
-----------------------------------
※REPEATされる変数の個数は「/」以下に表れる変数の個数と一致する必要がある。また,最後のPRINTはLOGに実際にどのような処理を行ったか出力させる命令。実行そのものにはあってもなくても無関係。
例3 v1-v4の変数に被験者の答え(はい=1 いいえ=0)が入っている。各問(v1-v4)の正答はそれぞれ1,0,1,0{v1は,はいが正答,v2はいいえが正答}とする。このようなときにv1-v4を正解したかどうかのリストに変更する。{注 答えが5択等でも正解は各問いに1つしかなければ同じ}
-----------------------------------
DO REPEAT i=v1 TO v4 / j=0 1 0 1.
DO IF (i=j).
COMPUTE i=1.
ELSE.
COMPUTE i=0.
END IF.
END REPEAT PRINT.
EXECUTE.
-----------------------------------
※ただし,この形式は元のデータを書き換えてしまうので勧められない。次の形式のほうがよい。
例 上記と同じでv1-v4をそのまま保存し,正解変数を別に用意(vv1-vv4)する場合
------------------------------------------------
DO REPEAT i=v1 TO v4 / j=0 1 0 3 /k=vv1 TO vv4.
DO IF (i=j).
COMPUTE k=1.
ELSE.
COMPUTE k=0.
END IF.
END REPEAT PRINT.
FORMATS vv1 vv2 vv3 vv4 (F8.0).
EXECUTE.
------------------------------------------------
※変数変容コマンド
COMPUTE,RECORD,COUNT,IF
DO IF,ELSE IF, ELSE, END IF, LOOP-END LOOP
MISSING VALUES
DATA LIST
PRINT WRITE
出力書式コマンド
LEAVE
値の反転
カテゴリ数+1から値を引けばよいが、
単純な場合
「値の再割り当て」〜「同一の変数へ」
複雑な場合
欠損値を9にしている,-1にしている場合など
-----------------------------
DO IF(v1>=1 & V1=<8)
COMPUTE v1_r=6-v1.
ELSE.
COMPUTE v1_r=v1.
ENDIF.
-----------------------------
群別に処理をする
個別に処理したい変数により,ソートしてから分割処理する。
----------------------------
SORT CASES BY 変数 .
SPLIT FILE LAYERED BY 変数 .
----------------------------
メニューでは,[データ(D)]-[ファイルの分割(E)]-[○グループの比較(C)]
で分割処理する変数を指定する(SPSS ver.12)
例:性別に変数のV1〜V6についてCochranのQ検定を行う。
--------------------------
SORT CASES BY sex .
SPLIT FILE
LAYERED BY sex .
NPAR TESTS
/COCHRAN = v1 TO v6
/MISSING LISTWISE.
--------------------------
変数につけるラベル(値ラベル〜SASのLABEL)
VARIABLE LABELS 変数名 '変数ラベル'
-----------------------------
VARIABLE LABELS v1 '性'/
v2 '年齢'/
v3 '学年'.
-----------------------------
なお,
VARIABLE LABELS 変数名A TO 変数名B .
で,SPSSのデータの並びで変数名Aと変数名Bの間にあるすべての変数から値ラベルが消滅する
ラベル(SASのFORMAT)
VALUE LABELS 変数リスト 値 'ラベル'
-----------------------------
VALUE LABELS syussin
1 '北海道'
2 '青森'
3 '秋田'
4 '岩手'
5 '山形'
6 '福島'
/ sex
1 '男性'
2 '女性'
/ v1 v2 v3
1 'はい' 2 'いいえ' .
-----------------------------
データ型の変更
FORMATS 変数リスト (変数の型)
例1.数値変数 a b を全体幅を8,小数部を1に, c d e の全体幅を5,小数部0にする。
--------------
FORMATS
a b (F8.1)
/c d e (F50).
--------------
例2.文字変数 x の幅を15にする。
---------
FORMATS
x (A20).
---------
複数の変数を組み合わせによる新変数の作成
例1: sex(1:男,2:女)とrace(1:日本人,2:アメリカ人)
--------------------------
DO IF (sex=1 & race=1).
COMPUTE type=1.
ELSE IF (sex=1 & race=2).
COMPUTE type=2.
ELSE IF (sex=2 & race=1).
COMPUTE type=3.
ELSE IF (sex=2 & race=2).
COMPUTE type=4.
ELSE.
COMPUTE type=0.
END IF.
EXECUTE.
VARIABLE LABELS type '性別国籍'.
VALUE LABELS type
1 MJ
2 MA
3 WJ
4 WA.
EXECUTE.
--------------------------
再定義
ADD VALUE LAVELS 変数リスト 値'ラベル'
値のカウント
「」「」
COUNT 結果変数=変数リスト(値)...変数リスト(値)/結果変数=変数リスト(値)...変数リスト(値)...
-------------------------------
COUNT vx= v1, v2, v3(1)/ v2(2)
-------------------------------
データを合成する
多重回答処理
1.カテゴリコード化型
好きなものを3つ選びなさいというタイプの質問紙で使われることが多い。
id v1 v2 v3
1 テレビ パソコン 車
2 クーラー テレビ バイク
3 パソコン テレビ 車
「分析」〜「多重回答」〜「グループの定義」
1)多重回答処理する変数を右の変数(V)に移す
2)変数のコード化様式を決定。カテゴリ(G)のほうを選び1〜最大値を指定する。上記の場合,実際のデータはテレビが1,パソコンが2... 車が20のようにコード化しておいて,最大値(20)を指定する。
3)この変数群に名前(N)をつけ,必要ならラベル(L)をつけておく
4)「追加」ボタンをクリック→多重回答グループ(s)に3)で付けた名前の頭に$がついて表示される
5)別に多重回答処理をする変数群があったら,3)〜4)を繰り返す
2.2分コード化型
id v1 v2 v3 v4 ..v20
(テレビ) (パソコン) (バイク) (クーラー) ..(車)
1 1 1 0 0 1
2 1 0 1 1 0
3 1 1 0 0 1
「分析」〜「多重回答」〜「グループの定義」
1)多重回答処理する変数を右の変数(V)に移す
2)変数のコード化様式で「2分」を選ぶ
3)この変数群に名前(N)をつけ,必要ならラベル(L)をつけておく
4)「追加」ボタンをクリック→多重回答グループ(s)に3)で付けた名前の頭に$がついて表示される
5)別に多重回答処理をする変数群があったら,3)〜4)を繰り返す
変数の展開
ある変数の値をもとに別の変数に1-0データに割り付ける。
sexという変数の値が1(男),2(女)であった場合,これを,MとFという変数に分け,sexが1ならMを1,Fを0,sexが2ならMを0,Fを1にする。ダミー変数を作成する場合などに使える。
-----------------
DO IF (sex=1).
COMPUTE M=1.
ELSE IF (sex=2).
COMPUTE F=1.
END IF.
EXE.
-----------------
●SPSS統計処理TIPS
カイ二乗検定
[分析(A)]-[記述統計(E)]-[クロス集計(C)]で行(O)列(C)にそれぞれ変数を指定する。
[統計(S)]-□カイ2乗(H)にチェック
[セル(E)]-
[度数]
□観測(O)〜チェック
□期待(E)〜2変数に差がない場合の値
[パーセンテージ]〜表の縦に対する割合、横に対する割合、総数に対する割合を必要に応じてチェック
[残差]〜残差分析*をする場合にてチェック
*残差分析
カイ二乗検定の場合、残差分析は表中の値のどこで有意差が見られるかを検討する場合に行う。
[書式(F)]は特に操作不要
シンタックス
--------------------------
CROSSTABS
/TABLES=sex BY syussin
/STATISTIC=CHISQ.
--------------------------
上記のチェックを入れてみる。
度数、期待値、行%、列%、全体%、調整済みの標準化残差
--------------------------------------------------
CROSSTABS
/TABLES=sex BY syussin
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT EXPECTED ROW COLUMN TOTAL ASRESID
/COUNT ROUND CELL .
--------------------------------------------------
統計量の出力
シンタックス
------------------------------------------
EXAMINE
VARIABLES=sex gaku taiju sincho
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES EXTREME
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
------------------------------------------
VARIABLESに必要な変数を記述。
グラフ部分だけでも見ておくとよい。度数表示と正規性の検定が実行される。
度数分布
[分析(A)]-[記述統計(E)]-[度数分布表(F)]で変数を指定する。
シンタックス
-------------------------
FREQUENCIES
VARIABLES=taiju sincho
/BARCHART FREQ
/ORDER= ANALYSIS .
-------------------------
相関係数
シンタックス
V1-V10とAGE 間の相関を出力
--------------------------------
CORRELATIONS
/VARIABLES=V1 TO V10 AGE
/MISSING=PAIRWISE .
--------------------------------
シンタックスではWITHを指定できる。以下のように指定すると V1〜V10 と AGE の 相関係数のみ出力される(10×1=10変数出力)。
--------------------------------
CORRELATIONS
/VARIABLES=V1 TO V10 WITH AGE
/MISSING=PAIRWISE
/PRINT=TWOTAIL NOSIG .
--------------------------------
※WITH 以下の変数も複数指定できる
仮にWITHを指定せず上記のまま 出力すると V1 TO V10 AGE の相関係数の出力は121になる(11×11=121変数)。
散布図
変数kk と変数ssの散布図を描くシンタックスは
--------------------------------
GRAPH
/SCATTERPLOT(BIVAR)=kk WITH ss
/MISSING=LISTWISE .
--------------------------------
これを例えば男性と女性のように層別に出力する場合は
BY 変数
を利用して,以下のように書く。
----------------------------------------
GRAPH
/SCATTERPLOT(BIVAR)=kk WITH ss BY sex
/MISSING=LISTWISE .
----------------------------------------
これで,1枚の散布図で男性のデータと女性のデータが色分けされて表示される。
図に表題を入れるなら
-----------------------------------------------
GRAPH
/SCATTERPLOT(BIVAR)=kk WITH ss BY sex
/MISSING=LISTWISE
/FOOTNOTE= '図の表題' 'もし2行に分けるなら…'.
-----------------------------------------------
複数の変数の関係を一度に見るなら
----------------------------------------
GRAPH
/SCATTERPLOT(MATRIX)=kk ss ll mm nn
/MISSING=LISTWISE
----------------------------------------
重回帰分析
@[分析(A)]-[回帰(R)]-[線型(L)]
AGLMを参照
その他
・多重共線性
多重共線性は,独立変数間に強い相関がある場合などに偏回帰係数の値が不安定になる現象。
回避方法としては何らかの方法で変数選択を行う,または主成分分析を先に行うことがあげられる。変数選択の問題は,自動的にある変数が選択されてしまうと,他のそれと相関が高い変数は新たに説明する部分が少なくなるため,取り込まれにくくなるので,その結果として解釈が困難になることがあげられる。したがって,変数間の相関関係や共線性の診断の結果を参考に手動で変数を選択することもある。
診断をする場合は,統計のサブメニューにある共線性の診断にチェックを入れると,共線性の統計量が出力される。この許容量が小さい(0.2位?)場合はその独立変数により多重共線性が生じているものと見なし,除去する。
許容度は,その独立変数を残りの独立変数で予測する場合の重決定係数をR2とすると,1−R2に等しい。またVIFは許容度の逆数である。
・自由度調整済み重相関係数
ケース数をN,独立変数の数をp, 重相関係数をRとすると,自由度調整済み重相関係数の二乗は,
1- (N-1)/(N-p-1)×(1-R2)
で求められる。
分散分析
GLMを参照
球面性の検定
反復測定分散分析において,同一人に対する複数の質問や刺激投入をしたばあいに,それらの間にはある種の関連が生じると考える。従って,その要因を切り出す必要があるが,その際に各要因間の関係を視覚的に説明すると,多次元空間の中で変量の分散の大きさを表現したときに,等方向的に向かうので,球面状になっているようにみえる(はず)なので,このように呼ばれる。
具体的には,V1,V2,V3と変数があった場合,互いに独立だとすると繰り返されたとすると,これらの変数の分散共分散行列は以下の形態の定数倍になるはず。
V1 V2 V3
V1 1 0 0
V2 0 1 0
V3 0 0 1
ところがもしこれらの変数に相関があったとすると,このような形の定数倍になる。これが球面性仮定である。
V1 V2 V3
V1 1 α α
V2 α 1 α
V3 α α 1
具体的にはMauchlyの球面性(球状性)検定をする。
多重比較の場合
対照群と比較したい → Bonferroni,Dunnett(E)
群のケース数が等しい
→ 群の分散が等しい → [Tykey(T)],[R-E-G-WのQ(Q)]
→ 誤差自由度が75以上
主成分分析
目的
変数の要約(合成得点の算出,情報量の縮約)
方法
「分析(A)」〜「データの分解(D)」〜「因子分析(F)」〜「変数(V)」
変数を複数指定
〜「因子抽出」
[方法(M)]は主成分分析
[分析]両方あり得る
[抽出の基準]:最小固有値(E)で1
[表示]:[回転のない因子解(F)
〜「得点」
変数として保存(S)にチェック→表中に主成分得点が変数として追加される
このとき方法は回帰法(R)
〜「回転」
なし(N)
結果
共通性 最初はすべて1,因子抽出後をみる
説明された分散の合計
[初期の固有値]の[合計]を見る。1以上が主成分として取り上げられる
そのときの説明される部分は[抽出後の負荷量平方和]の累積%を見る
成分行列
因子分析なら因子行列と言われる。ここで表示される数値は「重み」と呼ばれる。
第一主成分が正の重みを持っていれば総合指標と考えられる。このばあい第二主成分はたいてい正負に分かれるので,その重みをみて第二主成分の意味を考える。
その他
・元のワークシート(というのだろうか)には主成分得点が書き込まれているはず。この得点は平均が0分散(標準偏差)が1で,主成分得点間の相関は0のはず。
・テコ比(Leverage)
多変量外れ値の検出に利用できる。外れ値(outlier)は,個々には外れていなくても,多変量データで見たときは外れているということがありうる。図に示すと,例えば2変量の場合には,集団から外れた位置にあるものである。
因子分析
目的
(潜在的な)因子をみつけること
共通の因子と独自の因子があると考える。通常は前者が因子,後者は誤差と見なされる。
方法
「分析(A)」〜「データの分解(D)」〜「因子分析(F)」〜「変数(V)」
変数を複数指定
〜「因子抽出」
[方法(M)]は主成分分析以外
主因子解:
それぞれの変数についてその変数を除いた全ての変数を説明変数とした際の重相関係数の2乗(SMC)を,共通性の初期推定値として対角線上においた相関係数行列から因子を抽出し,得られた因子の共通性を再度,対角成分において因子の抽出を繰り返し,共通性の変化量が収束基準以下になるまで反復を繰り返す方法。反復主因子法と同じ。
一番過去には多く使われた。理論上は重み付けのない最小自乗法と同じ解になる(が,その前に反復計算が収束してしまうことが多いという)。
(重み付けのない)最小自乗法:
主因子解より早く収束する。元のデータの分散・共分散行列と抽出した因子から算出される分散・共分散行列の各要素の差の平方和が最小になるような因子を抽出する方法。比較的良く用いられる。
一般化最小自乗法:
最小自乗法に変数の独自性による重み付けを行ない,変数の分散の影響を受けないようにした方法。多変量正規性を仮定しないため,正規性が疑わしいときは最尤法よりもより結果になるという。
最尤法:
因子負荷量などの推定値から算出される尤度(Iikelihood)という指標を最大にするような因子を抽出する方法。適合度が自動的に算出される。正規性が仮定できるときに良いといわれる。そうでない時や標本数が少ないときは不適解が生じやすいという。最近多用される。
アルファ因子法:
Cronbachの信頼性係数αと同様の手続きを用いることで因子の信頼性を最大化するような重み付けを行う方法。変数の粗点の代わりに共通性を要素とする対角行列をはじめに用いる。
イメージ因子法:
ガットマンのイメージ理論に基づいて因子を抽出する方法。各変数について共通因子空間における幾何学的なイメージを考え,それについて分析する方法。
[分析]ふつうは相関行列
[抽出の基準]:最小固有値(E)で1
[表示]:[回転のない因子解(F),スクリープロット(S)にチェック
〜「得点」
(必要なら)変数として保存(S)にチェック→表中に因子得点が変数として追加される
このとき方法は回帰法(R)
〜「回転」
なし(N)以外を選択する。
バリマックス:直交回転
因子負荷量の平方の分散を最大にするように回転する方法。
もっともよく使われる(先行研究との比較に便利)。累積寄与の検討に向いている。現実的でない解になる可能性あり。
クォーティマックス:直交回転
因子負荷量の4乗和が最大になるように回転する方法。個々の変数を説明するための因子の数を可能な限り少なくすることを目的としている。
因子パターン行列の行ごとの分散の和を最大化する。つまりできるだけ各変数が特定の因子に高い因子負荷量を持ち,他の因子にはゼロに近い因子負荷量になるようにする
エカマックス:直交回転
因子パターン行列の列ごとの分散の和を均等に最大化する手法。因子負荷量の2乗の分散を各因子事に均等に最大化する回転によって,各因子の重要性を平等化するようにする。
バリマックス回転とのクォーティマックス回転の中間的な性質を有する回転法。
直接オブリミン:斜交回転
直接オブリミン解を最小化する。多様な因子間相関を得られる→因子パターンを単純化するように回転法。
プロマックス:斜交回転
斜交回転の一方法で,バリマックス回転によって得られた因子行列の各要素を2乗した行列をターゲットとしてプロクラステス回転を行う回転法。言い換えると,あらかじめバリマックス回転により直交する因子を求めておいて,直交性をゆるめながら単純構造をえるようにする。
〜「記述統計」
[相関行列]の[係数(C)]と[有意水準(S)]にチェック
さらに,[KMOとBartlettの球面性検定(K)をチェック]
〜「オプション」
[係数の表示形式]の[サイズによる並び替え(S)]にチェック
結果(直交回転)
相関行列
相関の程度を見ておく。有意水準も
KMOおよびBartlettの球面性検定
「Kaiser-Meyer-Olkinの標本妥当性の測度」は0.5未満の時は因子分析を行う妥当性がない。
「Bartlettの球面性検定」の有意確率が有意水準以下(0.05)の時は相関行列は単位行列であることを意味する帰無仮説を棄却する。→すなわち,変数間に相関があるので共通因子を考えることに意味がある。
共通性
各測定値に対して共通因子で説明される部分がどのくらいであるかを示す値。回転をしたばあいは,因子抽出後の値を見る。
一応最大値は1のはずだが時々これを超えることがある。このときはSPSSは計算を停止する?
1から共通性を引いた値が独自性である。共通性が大きい変数は共通因子から大きな影響を受けているという。
説明された分散の合計
固有値は変数の数だけ出てくるが,1.0以上のものだけを採用することが多い。
このときは[初期の固有値]の[合計]値を見る。
固有値が大きいほど,その因子と計算に用いた変数群との関係が強い(=変数群のその因子への寄与率が高い)ことを示す。
※結果を表にするときは,開店後の負荷量平方和を見る。[合計]に書かれているのが「因子寄与」
[分散の%]は因子の寄与率。累積寄与率はすべての因子を大きい順に合計していったもの。
スクリープロット
傾きが急に変わるところに着目して因子の数を決定する時使用する
因子行列
因子負荷量といわれるもの。通常は回転後のものしか見ない。直交回転の場合は変数と因子の相関になりわかりやすい。
因子変換行列
無視してよい。非回転解から回転解を得る場合に必要な数値
結果(斜交回転)
相関行列
相関の程度を見ておく。有意水準も
共通性
見方は直交回転と同じ
説明された分散の合計
回転後には合計しかない。寄与率は計算できないから(合計が1にならないから)
スクリープロット
傾きが急に変わるところに着目して因子の数を決定する時使用する
因子行列
初期解の因子負荷量
適合度検定
モデルの適合度検定であり,有意水準(0.05)以上であれば帰無仮説を採用する。帰無仮説は「このモデルは適合している」であるので,有意水準以上の値であれば棄却できない。逆に有意水準(0.05)未満であれば,棄却することになる。→因子数の決定の根拠になりうる。
因子数を減らしていって,有意になる一つ前の因子数を採用する。
なお,適合度検定の表は最尤法(と一般化最小自乗法)で出力される。
これら2つの方法では
「反復中に 1 つまたは複数の1 よりも大きい共通性推定値がありました。得られる解の解釈は慎重に行ってください。」
がでることがある。やっかい。主因子法などよいともいうが…
パターン行列と構造行列
回転後の因子負荷量。バリマックス回転の回転後の因子負荷量に相当するのはパターン行列の方。
構造行列はもう一つの因子寄与のようなもの(項目と因子の相関係数)。軸が直交していないため生じる
因子負荷は質問項目に対する因子の影響力を表す(他の因子の影響を除去した因子寄与)。相関係数は因子の変化と回答の変化がどの程度関係性があるかを示す。(他の因子の影響を無視した因子寄与)
因子相関行列
因子間の相関を示す(直交してないので)
結果の表現
直交回転の場合は,因子負荷量,共通性,因子寄与,因子寄与率を書く。
斜交回転を行ったときは,項目内容,因子パターンに示された負荷量,因子間相関を書く。通常は共通性や因子寄与は書かない。
因子分析の手順について
0.天井効果,床効果のチェック
まず項目を見る。天井効果,床効果を調べる。決定的な値は定まっていないが,小塩(2004)は,一応平均値±SD以内に各項目の上下限の値がおさまっているかどうかで決めている。
例:5段階評価(とりうる値は最低1、最高5)のある項目の平均が4.0でSDが1.2だとすると、
4±1.2であるから、2.8〜5.2の幅となり、上がはみ出す(5<5.2)ので天井効果があるとする。
これらの効果が見られた項目は(その値の分布および、項目の持つ現実的な意味を考えてから)削除する。
1.因子に関する事前決定
因子数の決定方法を事前に考える。研究全体の意味から定める(先行研究や構成概念妥当性から)か、あるいは計算機任せにする。この場合固有値1以上か、スカリー基準がよく使われる。迷うときは両方出力する。
因子間の関連(回転方法)も決める。
2.共通性の検討
因子分析は項目ごとに、因子で共通に説明できる「共通性」と各因子別の「独自性」に別れる。回転後の共通性が小さいと言うことは,あまりその項目は(今回の)因子分析には適していない項目であると言うこと。
特に目安があるわけではないが、0.2乃至0.3以下なら削除の対象になりうる。
3.因子負荷量の絶対値の小さい項目の削除
因子ごとに因子負荷量をみて絶対値があまりに小さい値を示す(0.3乃至0.4以下の)項目を除く。
4.(直交回転の場合)単純構造のチェック
因子負荷量を見て,複数の因子で同程度の値を示す項目はあまり望ましくないので除くことがある。
5.解釈
残った項目を見て,因子を解釈する。これは適切なネーミングができるかどうかで判断する。この際因子負荷量の符号(正負)は重要。逆転項目がある場合には要注意。
6.その他〜再分析
因子が多すぎる場合や、解釈が難しい場合は元に戻って再度分析をする。この際には,色々な回転,色々な計算法で試して一番都合のよいものを採用してもかまわない。
因子分析の成否は結局は解釈容易性で決まるといってもよい。
因子分析シンタックス
最小限の記述例
-------------------------------------
FACTOR
/VARIABLES q1 TO q25
/EXTRACTION ULS
/ROTATION=VARIMAX .
-------------------------------------
実用的な記述例
(グリーンの部分だけ書き換える)
------------------------------------------------------------
FACTOR
/VARIABLES q1 TO q25
/MISSING LISTWISE
/PRINT EXTRACTION ROTATION
/FORMAT SORT
/PLOT EIGEN ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
FACTOR
/VARIABLES q1 TO q25
/MISSING LISTWISE
/PRINT EXTRACTION ROTATION
/FORMAT SORT
/PLOT EIGEN ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION GLS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4)
:
:
------------------------------------------------------------
(以下未完)
-------------------------------------
FACTOR
/VARIABLES 変数リスト
/ROTATION 回転方法 {VARIMAX|EQARMAX|QUARTMAX|OBLIMIN(n)|PROMAX(n)|NOROTATE}
/CRITERIA 因子抽出基準{FACTORS(n)|MINEIGEN(n)|ECONVERGE(n)|RCONVERGE(n)|KAISER ITERATE(25)
/PLOT EIGEN ROTATION
/PRINT INITIAL EXTRACTION ROTATION
/FORMAT 因子負荷量の大小による並び{SORT|BLANK(n)}
/EXTRACTION 因子抽出方法 {PC|PAF|ALPHA|IMAGE|ULS|GLS|ML}
/MISSING 欠損値処理法{LISTWISE|PAIRWISE|MEANSUB|INCLUDE}
--------------------------------------
GLM(重回帰分析)
GLM(General Linear Model)は重回帰分析と分散分析を統一した分析モデルである。実用上は説明変数(独立変数)が連続的である必要があるが,目的変数(従属変数)は連続的でも,カテゴリー的でもかまわないので,便利な分析法である。
母数模型と変量模型
母数型の因子だけからなる実験計画のこと。母数型とは,各水準がある定数として固定された平均値を持つと仮定される因子。この型の変数の場合,SPSSでは固定因子に設定する。
変量因子とは,各水準が標本で,母集団から抽出された確率変数として扱われるもので,この因子を変量型といい,変量型の因子のみの実験計画を変量模型と呼ぶ。この型の変数の場合,SPSSでは固定因子に設定する。
変量模型と母数模型が混じっている実験計画を混合模型と呼ぶ。
本来変量因子とすべき因子を固定因子とすると第一種の誤りαが増大する(帰無仮説が真のときに,棄却してしまい,対立仮説を受け入れてしまう)。
一元配置の分散分析では,因子を固定因子としても変量因子としても結果が同じくなる。
共変量は,因子とは別に従属変数に影響すると
考えられる連続量の変数。この変数を統制して因子の効果を見たい場合にこの変数を共変量に投入すると,その変数の影響を取り除いて因子の影響を検討できるようになる。共分散分析(ANCOVA)と呼ぶ。
WLS重み 重み付き最小二乗(weighted least squares)で用いる重みのこと。
セルごとにケースの重みをを変えたいとか,特別なケースにのみ重みをつけたい場合に使う。
モデルについて
平方和を分解するときに,各セルごとのサンプル数が同じでない場合にその投入順序が問題になる。
タイプT:
因子の投入順序がアプリオリに決定されている場合に使用(一次,二次とか,順序とか)。
タイプU:
因子の主効果を,自分を含まない他の因子の主効果の影響をコントロールしており,交互作用に対しては,主効果をコントロールしている(主効果を求めるときは交互作用のコントロールは行わない)。
アンバランスなケースがある場合にそのケース数を考慮した分析
タイプV:
デフォルト。交互作用も考慮するタイプUのようなものだが,空セルがあった場合は,空セルが関与する交互作用を全て無視する。アンバランスなケースのセルはケースの数を無視して分析(つまり各セルを同等と見なす)
タイプW:
空セルがあっても利用できるがモデルが一意にさだまらない。。
アンバランスでも主効果しか検定しないのであればどれを利用しても同じである。
アンバランスで交互作用も検定するのであれば通常はタイプVを利用するが,セルのアンバランスが大きい場合はタイプU,欠損がある場合はセルの併合等データの調整を先に考えるのだが,それではだめなときにタイプWを利用。タイプTは利用される場面が限定される。
モデルに定数項を含まないようにすると,定数項(Y切片)が強制的に0にされる。理論上原点を通る(ことになる)モデルではこのチェックをはずさないと,説明変数がなくても目的変数が値を持ってしまい不都合が生じる。
対比について
事前に特定の因子の水準間に仮説があり,それを検討する場合に指定する。多重比較(その後の検定)との違いは,その後の検定でなされる多重比較による検定より,アプリオリ対比のほうが検定力が高いので,当然ながらこの方がよい。
因子は事前にすべて投入されているが,[対比の変更]で因子ごとに
参照カテゴリ:全平均対比と単純対比で指定する水準のこと。「最初」と「最後」のどちらかを選ぶ。全平均対比の場合には,各水準は全体平均との偏差対比となるが,参照カテゴリとして指定された水準は省略される。「最後」を選択すると最後の水準の対比が,「最初」を選択すると最初の水準の対比が無視される。
なし
全平均対比
非直交対比になる。各水準の平均値が全体平均と差がないという仮説を検討する時使用する。水準がA1,A2,A3のとき,[最後(L)]を選んであれば,全体平均とA1,全体平均とA2を対比するが,全体平均とA3の対比はしない。
単純対比
非直交対比になる。水準がA1,A2,A3のとき,[最後(L)]を選んであれば,A1とA3,A2とA3が比較される。
逆Hermert対比
直交対比。Hermertの逆で各水準平均を,それより前の水準の平均と比較する。A1,A2,A3という水準であれば,A1対それ以降, A2対それ以降(つまりA3)という比較をする。
Hermert対比
直交対比。各水準平均を,それより後の水準の平均と比較する。A1,A2,A3という水準であれば,A1対A2, A3対それ以前という比較をする。
反復測定
A1,A2,A3という水準であれば,A1対A2, A2対A3という比較をする。
多項式対比
直交対比。ある因子に関して(水準ー1)の平均値に多項式を当てはめて検定を行う場合に指定する。
GLMの手順
[分析(A)]-[一般線型モデル(G)]-[1変量(U)]
[従属変数(D)]:従属変数(目的変数)を入れる。多変量との違いはここだけ。
独立変数(説明変数)は以下のどちらかに振り分けて入れる。違いは「GLM(重回帰分析)」の説明を参照。
[固定因子(F)]:固定因子を入れる。
[変量因子(A)]:変量因子を入れる。
[共変量(C)]:指定しなくても良い。共分散分析をする場合などに入れる。
[WLS重み(W)]:指定しなくても良い。
[モデル(M)]
[モデルの指定]では,[すべての因子による(A)]をとりあえず選ぶのが普通。
[ユーザの指定による(C)]を選ぶと[因子と共変量(F)]が選択できるようになり,必要に応じていらない変数を除いて分析することが出来る。モデル(M)に選んだ変数を移動した後,[項の構築]で交互作用,主効果,2次〜5次まで,を選ぶ。
[平方和(Q)]は,タイプVがデフォルト。通常はこのままか,タイプUを選ぶ。
[モデルに定数項を含む(I)]は通常チェックしておく。
[対比(N)]
[因子(F)]にはすべての変数が事前に書き込まれていて後ろに(なし)とついている。
因子を選択後,[対比の変更]-[対比(N)]で選択肢から選択し,[変更(C)]する。
元に戻す(指定しなかったことにする)には「なし」選択して[変更(C)]-[続行]を選ぶ。
[対比(N)]で全平均対比と単純対比を選択すると,[参照カテゴリ]がONになる。[最後(L)]か[最初(R)]を選ぶ。ある水準と他の水準を比較するのであるが,そのある水準が最初にあるときは[最初(R)]を最後のものなら[最後(L)]を選ぶ。
[作図(T)]
主効果,交互作用等を指定しておいて対比の効果を見るとわかりやすい。
[その後の検定(H)]
post hoc test のこと。分析前に比較する群が決まっているときは a priori test を利用するほうが検定力が高く,その後の検定を行う必要はない。 むしろ群間でどこに差があるという明確な仮説なしにとりあえず結果をみたいという時に利用する方法である。その趣旨から複数の群間で比較を多重にするので,多重比較(検定)と言われる。同じ群を何度も比較するので通常のt検定はそのまま利用することはできない。
t検定の有意水準を5%とすると,この値は2群の比較の時に,2群が等しいという帰無仮説を誤って捨てる確率である。このまま例えば3つの群のうちから2つをとりだし,検定をすると,例えばA1,A2,A3の3群とすると,A1とA2, A2とA3,A1とA3の3つの組み合わせができるので,その検定力は
1 - (0.95)^3にまで落ちる。
[オプション(O)]
標準偏回帰係数
クラスター分析
階層クラスタ分析
分析の目的は,ケース×変数のデータ行列から算出したケース間の類似度に基づいて,ケースを階層的にクラスタ(グループ)分けすることである。分析では,各ケースそれぞれをひとつのクラスタと見なすことから始めて,段階的に,似ているクラスタ同士をひとつのクラスタとして結合させていく。この結合のプロセスが,最終結果としてデンドログラム(樹形図)に図示される。
またSPSSでは,チェックをするだけで,同様に変数の分類をすることができる。こちらのほうが実用的かも知れない。クラスター分析には多数の方法があるので,結果がもっとも感性にあったものを選ぶとよい。それらの方法(結果)の良否判断の絶対的な選択基準はないが,よく使われるのはウォード法である。
設定方法
[分析(A)]-[分類(Y)]-[階層クラスタ(H)]-
□変数(V)〜分析をする変数の指定
つまり,ケースをクラスタ分けするのに素材となる変数を指定する。例えば被験者を,身長,体重,座高,足の大きさ…とかで(体型による)分類をしたいという場合に指定する身長等の変数である。
□ケースのラベル(C)〜被験者を区別できるラベルがある変数。
これを指定すると垂直つららやデンドログラムの出力時に名前がついてわかりやすくなる。漢字ラベル可である。
□クラスタ対象
[ケース(E)]または [変数(B)]のどちらかを選ぶ。[変数(B)]を指定すると似た変数同士がクラスターになり因子分析風になる。
□表示
[統計(S)]〜統計ボックスで設定した統計量を表示する
[作図(L)]〜作図ボックスで設定した図を表示する
どちらもチェックしておくほうがよい。
[統計(T)]-
□クラスタ凝集経過工程(A)〜クラスタが結合される様子がわかる
□距離行列(P)〜項目間の距離の計算結果を表示する
□所属クラスタ
○なし(N)
この設定をオフにすると,クラスタを結合する1つの段階または複数の段階で,各項目が割り当てられているクラスを表示する。
○単一の解(S)
単一クラスタ解の所属クラスタを表示する。1より大きい整数でクラスタ数を指定する。
例えば2と指定すると,デンドログラムに基づいて,ケースはクラスタ1および2のいずれかに二分され,各ケースがクラスタ1か2のいずれに属するかを記した表が出カされる。
○解の範囲(R)
指定した範囲のクラスタ解に所属クラスタを表示する。最低クラスタ解と最高クラスタ解に対応する2つの数値を,1以上の整数で指定する。
例えば、クラスタの個数を2〜4個としたい場合には,「2から4まで」と指定すれば,各ケースについて,デンドログラムに基づいてケースは2分割〜4分割され,各ケースについて「2分割ならばクラスタ1か2のいずれに属するか」…「4分割ならばクラスタ1か2か3か4のいずれか」を示す表が出力される。
[作図(O)]-
□デンドログラム(D)
これは必ずチェックを入れること。
□つららプロット
これは×がクラスターを表す。デンドログラムの逆と思えばよい。×が連続しているのは仲間であるということ。
○全てのクラスタ(A)
○クラスタの範囲指定(S)〜多数の要因の場合巨大なつららプロット(あるいはデンドログラム)になるので,必要な範囲を指示する。
○なし〜つららプロットを書かない
□方向
つららプロットの表示形式の選択。
○垂直(V)
○水平(H)
[方法(M)]-
□クラスタ化の方法(M)
以下から選ぶ。
グループ間平均連結法〜クラスタ間の要素のうちで,平均的な非類似度の要素を基準にする
グループ内平均連結法〜クラスタ内の要素のうちで、平均的な非類似度の要素を基準にする
最近隣法〜クラスタ間の要素のうちで、非類似度が最小の要素を基準にする
最遠隣法〜クラスタ間の要素のうちで、非類似度が最大の要素を基準にする
重心法〜それぞれのクラスタにおける重心間の距離を非類似度の基準にする
メディアン法〜それぞれのクラスタ間の中点(メディアン)を基準にしてクラスタ化する
Ward法〜クラスタ内の距離平方和が最小になるようにクラスタ化する
※通常はウォード法(Ward法)が良いらしいと言われる。
その詳細:
メニュー画面の「方法」で「クラスタ化の方法」を指定すれば,出力結果に,指定法が,(1)単一連結,(2)完全連結,(3)平均連結(グループ間),(4)平均連結(グループ内),(5)重心連結,(6)Ward連結,(7)メディアン連結のいずれであるかが表示されるが,それぞれ,(1)最近隣法,(2)最遠隣法,(3)グループ間平均連結法,(4)グループ内平均連結法,(5)重心法,(6)Ward法,(7)メディアン法によって結果が得られたことを示す。
以上の各方法は,クラスタ間の非類似度の定義の仕方によって区別される。2つのクラスタA,Bのうち,Aがケース1と2から, Bがケース3と4から構成される場合を例として,以下に(1)-(7)の方法を説明する。
まず,異なるクラスタに属するケースの対1-2,1-3,2-3および2-4の(計4個の)非類似度に着目し,それらの中の最小値をクラスタの対A-Bの非類似度DABとするのが(1),最大値をDABとするのが(2),計4個の非類似度の平均をDABとするのが(3)である。次に,クラスタA,Bに含まれるすべてのケースの対 1-2,1-3,1-4,2-3,2-4,3-4の非類似度の平均を, A-Bの非類似度DABとするのが(4)である。
さて,(5)は各クラスタの重心間の平方ユークリッド距離をDABとする。ここで,重心とは,各クラスタに属するケースの変数ベクトルを平均したベクトルである。(6)では,クラスタ内の各ケースの変数ベクトルとクラスタの重心との平方ユークリッド距離を合計した値をクラスタの散布度と見なし,AとBを結合したクラスタの散布度から,A,Bそれぞれの散布度を減じた値をDABとする。(7)は,各クラスタの代表点を,そのクラスタを構成した2つのクラスタの重心の中点として,代表点間の平方ユークリッド距離をDABとする。例えば,クラスタCとDが結合してクラスタAができた場合,クラスタCの重心とDの重心の中点が,Aの代表点となる。(5),(6),(7)では,非類似度の指標として平方ユークリッド距離だけが利用される。(SPSS事典より)
□測定方法-
以下の3つからひとつ選ぶ。
○間隔(N)〜間隔尺度,順序尺度の場合
○度数(T)〜度数(頻度)の場合の場合
○2値(B)〜1か0といった「2値」の場合
それぞれの中での 距離は,皆デフォルトでよい。
詳細:
○間隔(N)の場合
以下から一つ選ぶ
ユークリッド距離〜項目値の差を二乗した値の和(平方和)の平方根。デフォルト
平方ユークリッド距離〜項目値の差の平方和
Pearsonの相関〜2つの値のベクトルに関する積率相関
コサイン〜2つの値のベクトル角度に関するコサイン
Chebychev〜項目値の最大絶対値
都市ブロック〜項目値の絶対差の和。マンハッタン(Manhattan)の距離と呼ぶ
Minkowski〜項目値のp乗に関する絶対差を総和したp乗根。デフォルトのベキ乗値2を, 1 ,3,4のいずれかに変更できる。
カスタマイズ〜項目値のp乗に関する絶対差を総和したr乗根。デフォルトのベキ乗値2を, 1 ,3,4のいずれかに変更できる。
○度数(T)〜度数(頻度)の場合の場合
SPSSVer12ではカイ2乗測度しかない。
○2値(B)〜1か0といった「2値」の場合
ユークリッド距離〜真偽を表す対角セルを[b,c]とする4分割表で、 SQRT(b+c)で計算される値を利用する。SQRT(b+c)は,(b+c)の平方根の意味。
平方ユークリッド距離〜不一致のケース数として計算される。最小値は0で,上限はない
サイズの差異〜非対称性の指標を表す。範囲は0〜1で定義される
パターンの差異〜真偽を表す対角セルを[b,c]とする4分割表で,観測値の総数をnとすれば,[(b c)÷n^2]で計算される値を利用する。範囲は0〜1で定義される。
分散〜真偽を表す対角セルを[b,c]とする4分割表で,観測値の総数をnとすれば, [(b+c)÷4n]で計算される値を利用する。範囲は0〜1で定義される
散らばり〜類似度の範囲は−1〜+1で定義される
形〜距離測度の範囲は範囲は0〜1で定義される
単純マッチング〜マッチする値の総数に対する比率を表す。マッチとノンマッチに同じ重み付けが与えられる
フアイ(四分点相関係数)〜ピアソンの相関係数に対応する2値型の相関係数である。範囲は−1〜+1で定義される
ラムダ〜1つの項目を使って,もう1つの項目を予測(両方向)する予測関連指標に対応している。範囲は0〜1で定義される
AnderbergのD〜1つの項目を使って,もう1つの項目を予測(両方向)するときの誤差の実減少に対応している。範囲は0〜1で定義される
Dice〜同時に偽の場合を分析から除外して,マッチに2倍の重み付けをする。範囲は0〜1で定義される
Hamann〜マッチの数からノンマッチの数を引いて,項目の総数で割る。範囲は−1〜+1で定義される
Jaccard〜同時に偽の場合を分析から除外する。マッチとノンマッチに同じ重み付けが与えられる。類似度の比率と呼ぶ。範囲は0〜1で定義される
Kulczynski 1〜すべてのノンマッチに対して同時に真の比率を表す。下限値が0で,上限はない
Kulczynski 2〜ある特性が1つの項目で真の場合に,もう1つの項目でも真であるという条件付き確率に基づく指標である。各項目で,もう1つの項目の予測変数として作用する値の平均を計算する。下限値が0で,上限はない。
Lance と Williams〜両方の項目で真のケースに対応するセルをaとして,1つの項目は真で,もう1つの項目は偽のケースに対応する対角セルをbとcとする4分割表で,[(b+c)÷(2a+b+c)]として計算される。範囲は0〜1で定義される
落合〜コサイン類似度の2値型に相当する。範囲は0〜1で定義される
Rogers と Tanimoto〜ノンマッチに2倍の重み付けをする。範囲は0〜1で定義される
Russel と Rao〜内積の2値型である。マッチとノンマッチに同じ重み付けをする。範囲は0〜1で定義される。デフォルト
Sokal と Sneeth 1〜マッチに2倍の重み付けをする。範囲は0〜1で定義される
Sokal と Sneeth 2〜ノンマッチに2倍の重み付けをして,偽の項目は除外する。範囲は0〜1で定義される
Sokal と Sneeth 3〜マッチのノンマッチに対する比率。下限値は0で,上限はない
Sokal と Sneeth 4〜条件付き確率に基づく。各項目で,もう1つの項目の予測変数として作用する値の平均を算出する。範囲は0〜1で定義される
Sokal と Sneeth 5〜正および負のマッチの条件付き確率の平方相乗平均である。範囲は0〜1で定義される
Yule の Y〜[2×2]のクロス表における交差率の関数である。範囲は−1〜+1で,結合係数と呼ばれる
Yule の Q〜ガンマ係数の特殊な場合で,交差率の関数である。範囲は−1〜+1で定義される
□値の変換
異なる単位尺度で測定した変数の効果を等しくするために,ケースまたは変数のどちらかに対してデータ値を標準化する。間隔(N)か度数(T)でしか使用できない。以下の選択肢がある。
なし
Z得点〜[平均値0,標準偏差1]のZ得点に標準化する
-1から1の範囲〜標準化した値を範囲R (最大値一最小値)で割り算する
0から1の範囲〜標準化した値から最小値を引いて,範囲Rで割り算する
最大値を1〜標準化した値を最大値で割り算する
平均値を1〜標準化した値を平均値で割り算する
標準偏差を1〜変数またはケースの標準化した値を標準偏差値で割り算する
□測定方法の変換
□絶対値〜絶対値にする。
例えば相関係数は正負の符号で関係の方向を表しているが,関係の大きさだけに関心があるとき,符号を除去した絶対値を選択する。
□符号変換〜類似度を非類似度に変換する。または非類似度を類似度に変換する。
□0-1の範囲で尺度化〜距離値が0〜1の範囲になるように再調整する。
※以下の計算式で標準化する。
S=(X-L)÷R
なお,X=データ値,L=最小の距離値,R=最大の距離値一最小の距離値
[新変数の保存(A)]-
□所属クラスタ
○なし(N)〜データウィンドウにクラスタ処理の結果を書き込まない
○単一の解(S)〜単一クラスタ解の所属クラスタを指定してクラスタ数を保存する。1より大きな値をいれる。
○解の範囲(R)〜一定範囲のクラスタ解の所属クラスタを保存する。(例えば2〜6と書くと,それぞれのクラスタ数の値が書き込まれる
結果の見方
クラスタ擬集経過工程
階層クラスタ分析では,各ケースそれぞれをひとつのクラスタと見なすこと(つまり各クラスタがひとつのケースから構成される状態)から始めて,段階的に各クラスタを結合して(凝集させて)いくが,段階を追って結合の過程を示した表がクラスタ凝集経過工程である。各段階において,各クラス夕闇の(非)類似度が評価され,最も似ている2つのクラスタがひとつに結合される。この結合は,すべてのクラスタがひとつに凝集するまで繰り返される。
4.結合されたクラスタ(clusters combined)
「結合されたクラスタ」は,各段階で結合されたクラスタのペアを示す。つまり,結合されたクラス
タに属するケースの中で,最も小さいケース番号が「クラスタ1」と「クラスタ2」の欄に表示される。
例えば, 4つのケース1,2,3,4を分析して, 2と4が最も似ていれば,段階1のクラスタ1および2
の欄に,それぞれ2および4が表示され,段階2でケース2と4からなるクラスタとケース3が結合
すれば, 2と3が表示される。対応する「係数」は結合した2つのクラスタの(非)類似度を表す。
5.クラスタ初出の段階(stage cluster first appears)
各段階で結合されたクラスタが,該当段階の前に現れた段階の番号を示す。 「次の段階」は,結合さ
れたクラスタが次に現れる段階を示す。
6.所属クラスタ(cluster membership)
「単一の解」または「解の範囲」でユーザーが指定したクラスタ数に従って,各ケースがどのクラスタに属するかを示す。このクラスタ-の分類はデンドログラムに基づいて行われる。例えば,解を3と指定した場合,デンドログラムは, 3本の枝が伸びる段階でスライスされ,ケースは3グループに分けられる。この3グループ(クラスタ)が1,2,3の番号として表示される。
垂直つらら
行にクラスタの数,列にケースが並び, X印の連なりによってケースの同一クラスタ-の所属を,X印の途切れによって別のクラスタ-の分離を表した図。例えば,クラスタの教が2の行は,ケースを2つのクラスタに2分する場合の分割を示し, ]の連なりが途切れる列の左に並ぶケースが同一のクラスタに属し,右に並ぶケースが左とは別の同一クラスタに属することを表す。クラスタの数が3の行は,Xの連なりが途切れる2つの列によって,ケースを3つのクラスタに3分する場合の分割を示す。
また,この図は,下から上に向かって,段階的にクラスタが結合されていくクラスタ擬集経過工程を表している。 「つらら」の方向を「水平」と指定すると,以上の表とは行と列が入れ替わった水平つららが表示される。
デンドログラム
各ケースを縦に並べ,左から右に向かう線の結合によって,クラスタを結合していく過程を表した樹形図。横軸のRescaled Distance Cluster Combineは,結合した2つのクラスタ間の非類似性を表し,元の非類似度の最小値が1,最大値が25,その他がそれらの間の値になるように変換した値を表す。
大規模クラスター分析(K平均クラスタ分析)
多数のケースの大規模データをクラスタ(グループ)分けする。分析目的は,データの値が似ているケース同士は同一クラスタに,似ていないケース同士は別クラスタになるように,ケースをクラスタに分類することである。クラスタの数は事前に指定する。
分析方法
[分析(A)]-[分類(Y)]-[大規模ファイルのクラスタ(K)]-
□変数(V)〜分析をする変数の指定
つまり,ケースをクラスタ分けするのに素材となる変数を指定する。例えば被験者を,身長,体重,座高,足の大きさ…とかで(体型による)分類をしたいという場合に指定する身長等の変数である。
□ケースのラベル(C)〜被験者を区別できるラベルがある変数。
これを指定すると垂直つららやデンドログラムの出力時に名前がついてわかりやすくなる。漢字ラベル可である。
お勧めは,
方法においては,[反復と分類(T)]を選び,□[移動平均を使用(U)]にチェック。他はそのまま。
以下説明
●方法
○[反復と分類(T)]〜結果に至るまでの反復計算の途中経過も出力
○[分類のみ(N)]〜反復計算の途中経過は表示されない
●クラスタ中心
□[初期値の読み込み(E)]〜あらかじめ自分で定めた反復計算の初期値を記したファイルの名前を入力するとファイル内の初期値に基づく反復計算がなされる
□[最終値の書き出し(W)]〜ファイル名を入力するとそのファイルに分析結果のクラスタの中心(重心)が出力される
-[反復(I)]-[最大反復回数(M)]〜反復を打ち切る回数の指定
-[反復(I)]-[収束基準(C)]〜反復計算の目的関数がこの値以下になった時点で計算を終了する基準値を指す(0.01など)。
-□[移動平均を使用(U)]
結果の見方
(未)
対応分析(コレスポンデンス分析) 要Categories オプション
数量化3類と同等の分析と言われる。独立変数が2つのカテゴリーデータ,従属変数もカテゴリーデータの場合の関係を分析するのに用いられる。また,クロス表を視覚的・直感的に把握する際にも用いられる。
すでに集計がなされている場合
1)まだクロス表のままの場合
何らかの方法で変数の変換をする。SPSSでなら→○横並びから縦並びへ1
エクセルでならマクロを使用する→taiou_sample.xls
以後は変数がすでに望む形になっているものとする(独立変数1,独立変数2,従属変数が個人ごとに揃っているデータになっている)。
例として福祉施設が持つ印象を聞いて,それをまとめたtaiou_sample1.savを利用する。
独立変数は施設,印象で,人数は選択人数である。
2)データに重み付けをする
「データ(D)」〜「ケースの重み付け(W)」〜「ケースの重み付け(W)」をチェック〜「度数変数(F)」に人数をいれる
3)「分析(A)」〜「データの分解(D)」〜「コレスポンデンス分析(C)」
行(W)に施設を指定し「範囲の定義(D)」に,最小値1,最大値12を入れ「続行」。
(※使用するカテゴリに合わせて設定)
列(C)に印象を指定し同様に設定して「続行」。
4)「作図(O)」〜「散布図の選択」で「バイプロット(B)」,「行ポイント(O)」,「列ポイント(M)」のすべてにチェック〜「続行」
5)「OK」
個別のデータの場合
2)以下を実行すればよい(重み付けをしなければよい)
結果の見方
・コレスポンデンステーブルは2変数のクロス表である。
・要約で特性値他が出力されている。(特性値の2乗=要約イナーシャであり,要約イナーシャは固有値)
※イナーシャの寄与率の説明の値を見る。これは各次元(因子分析で言えば{因子}軸にあたる)がどのくらいデータを説明しているかを示している。
・行ポイント(施設)の要約と列ポイント(印象)の要約
これは次元の得点をみる。施設と印象の要素が,それぞれ次元1,次元2でどこに位置しているかを示している。
・それらが次の施設の行ポイントと印象の列ポイントの図に表現される。
・最後の行ポイントと列ポイントを同時表示したものがもっとも重要な図であり,2つの独立変数(施設,印象)の位置を同時に表示したものになっている。
● SPSS忘れやすいTIPS
マウスクリック派の人に
一度指定した命令を再度実行するには,アイコン左から4つめ(Ver.12)の「ダイアログのリコール」をクリックすると楽。以前に実行した分も表示される。最後に実行した命令は最上位に表示される。
データの標準化
[分析(A)]-[記述統計(E)]-[記述統計(D)]-[標準化された値を変数として保存(Z)]
群別の分析
男女別,学年別などの比較をする。これは直接分析をする命令ではなく,前処理をするだけの命令である。
[データ(D)]-[ファイルの分割(F)]-[グループの比較(C)]
を選び,[グループ変数によるファイルの並び替え(S)]が選択されているかどうかをチェックする。
データエディタウィンドウの右下に「分割ファイルオン」と表示される。
元に戻すには,[全てのケースを分析(A)]をチェックする。
この状態で,例えば記述統計を選ぶと,データが群別に出力される。
参考:
{ ○[全てのケースを分析(A)] ○[グループの比較(C)] ○[グループごとの分析(O)] }
から一つをチェックするようになっているが,真ん中を選ぶ。
{ ○[グループ変数によるファイルの並び替え(S)] ○[ファイルはすでに並び替え済み(F)] }
すでにデータが分類する変数でソートされていなければ前者を選ぶ。通常は前者を選んでも何も問題はない(時間がかかるだけ)。
シンタックス
個別に処理したい変数により,ソートしてから分割処理する。
----------------------------
SORT CASES BY 変数 .
SPLIT FILE LAYERED BY 変数 .
----------------------------
例:性別にグラフ作成
--------------------------
SORT CASES BY sex .
SPLIT FILE
LAYERED BY sex .
GRAPH
/SCATTERPLOT(MATRIX)=kk ss ll mm nn
/MISSING=LISTWISE.
--------------------------
分割処理を解消するには
-----------------
SPLIT FILE OFF .
-----------------
※分割処理がなされる場合は、SPSSのデータウィンドウの右下に「分割ファイルオン」と表示される。
群別の比較2
[データ(D)]-[グループ集計(A)]を選び,
[ブレーク変数(B)]〜群別に分けたい変数。性,学科,学年など
[集計変数(A)]〜実際に値を求める変数。同じ変数を複数入れても良い。
別の変数を入れてもよい。
[変数名とラベル(N)]〜新たに計算する変数の名前とラベルを入力する。あえて入れなくても適当に入力される。
[関数(F)]〜ここで要約統計量(平均値,中央値,合計,標準偏差,最大,最小等を選ぶ。複数の統計量等が必要であれば,集計変数に同じ変数を入力してもよい。例えば変数1の平均と合計など。
出力はデフォルトでは[新規データファイルの作成(C)]が選ばれており,元のデータファイルと同じフォルダ上にaggr.sav という名前で作成される。データファイル名や出力場所は自由に変更できる。
変数のグループ化
「変換」〜「値の再割り当て」〜「他の変数」
◎ある値による同数の群化(上中下)
バージョンによって、表現が違う。
[変換(T)]-[変数のカテゴリ化](Ver 10.0)
[変換(T)]-[Visual Bander(B)](Ver 12.0)
[変換(T)]-[連続変数のカテゴリ化(B)](Ver 14.0)
[変数(V)]から[バンドする変数(B)]を選択(複数指定可)〜「続行」〜
□Visual Banderウィンドウになる。
[スキャンされた変数のリスト(C)]から変数を1つ指定(結局1つずつしかできない)。
[バンドされた変数(B)]にカテゴリ分けした結果を代入する変数名を指定
[分割点の作成(M)]-○スキャンされたケースに基づく,等しいパーセンタイル(U)をチェック
□{区間-どちらかのフィールドに入力してください}
で
[分割点の数(N)]に分割したいグループ数-1を入力※
※分割数であるから上下2分割なら1,上中下3分割なら2である
シンタックスは以下の通りになるが、通常のシンタックスの範囲では下記の160という値を手入力することになる。
---------------------------------------------
*Visual Bander.
*msin.
RECODE msin
( MISSING = COPY )
( LO THRU 160 =1 )
( LO THRU HI = 2 )
( ELSE = SYSMIS ) INTO msin2.
VARIABLE LABELS msin2 '母身長(バンド済み)'.
FORMAT msin2 (F5.0).
VALUE LABELS msin2
1 ''
2 ''.
MISSING VALUES msin2 ( ).
VARIABLE LEVEL msin2 ( ORDINAL ).
EXECUTE.
--------------------------------------------
EXCELへのデータの書き戻し
入力はエクセルが便利だが,SPSSで一定の処理を終えた後、データを処理し終わった後でエクセルに戻したいことがある。このときは,以下のようにすると便利なことがある。
[ファイル(F)]-[名前をつけて保存(A)]
[変数(V)]をクリックし,必要な変数を選択する。
□[スプレッドシートへの変数名への書き込み(W)]〜変数名を書き込む。だいたいチェック推奨
□[データ値の替わりに定義場所のデータラベルを保存(S)]〜データラベルをつけた値(1=男性,2=女性など)はここをチェックすると1,2の替わりにそれぞれ男,女と出力される。→作表しやすくなる。ただし集計する必要がある場合はこまるので,これをチェックしていないエクセルファイルも作成したほうが良いかもしれない。
その後は
[ファイルの種類(T)]で「EXCEL97以降(*.xls)」を選択し,ファイル名をつけて保存。
重み付けデータの処理
独立性の検定の場合などで使用すると便利なことがある。
カイ二乗分析の時などに使われることが多い
────────────
好き 嫌い 計
────────────
良い 30 70 100
────────────
悪い 70 30 100
────────────
などの場合に
v1 v2 value
好き 良い 30
嫌い 良い 70
好き 悪い 70
嫌い 悪い 30
といれて,
[データ(D)]-[ケースの重み付け(W)]
[○ケースの重み付け(W)]を選択し,[度数変数(F)]にその変数(今回はvalue)を指定する。
シンタックスでは
-----------------
WEIGHT BY value .
-----------------
と指定する。
重み付けを解くには、
-----------------
WEIGHT OFF .
-----------------
とする。
※重み付けがされている場合は、SPSSのデータウィンドウの右下に「重み付きオン」と表示される。
信頼性分析
[分析(A)]-[尺度(A)]-[信頼性分析()]
信頼性分析では測定尺度とその構成項目の特性を調査する。
普通はクローンバックのアルファ係数を使用。
[統計量] 各変数と尺度の記述統計,項目での要約統計,項目間の相関と共分散,信頼性推定値,分散分析表,級内相関係数,Hotelling の T2 乗,Tukey の加法性の検定。
モデル 次の信頼性のモデルを使用できる。
アルファ (Cronbach) これは,項目間の平均相関に基づく内部一貫性のモデル。
折半法 このモデルは尺度を 2 つに分割し,分割した部分間の相関を調べる。
Guttman このモデルは真の信頼性の Guttman の下限を計算する。
平行モデル このモデルでは,繰り返しを通じてすべての項目の分散と誤差分散が等しいと仮定。
厳密平行モデル このモデルは平行モデルの仮定に加えて,すべての項目で平均が等しいと仮定。
[データ・テーブルから不要な変数を削除する場合のコマンド]
現在開いているファイルで変数A、変数Bを削除する方法
Match files file=*
/drop 変数A 変数B.
Exe.
ファイルをセーブするときに変数A、変数Bを削除する方法
SAVE OUTFILE='C:\test\sample1.sav'
/DROP=変数A 変数B
/COMPRESSED.
作図について
普通にエクセル等で作図するのに準ずる。その他のエクセルでは普通にはできない作図,あるいは実用性の高い作図について紹介する。
コメント
コメントは,プログラムを一時的に実行したくない場合に使われる。
また,処理の内容をプログラムを利用する人に伝えたいときに使われます。こちらを目的とする場合は,コメントとプログラムの内容が食い違うことがあるので注意が必要です。
* この文はコメントです.
/* この文もコメントです.
関数
算術関数
SQRT 平方根 vx=SQRT(v1)
LN 対数
LG10 常用対数
EXP 指数
SIN 正弦関数
COS 余弦関数
ARSIN 逆正弦関数
ARTAN
RND
ABS 絶対値
TRNC
MOD
制御文
DO IF文
-----------------------
DO IF [(]論理式[)]
命令文
[ELSE IF [(]論理式[)]]
命令文
[ELSE IF [(]論理式[)]]
命令文
[ELSE]
命令文
END IF
------------------------
例:
--------------------------
DO IF (sex=1 & race=1).
COMPUTE type=1.
ELSE IF (sex=1 & race=2).
COMPUTE type=2.
ELSE IF (sex=2 & race=1).
COMPUTE type=3.
ELSE IF (sex=2 & race=2).
COMPUTE type=4.
ELSE.
COMPUTE type=0.
END IF.
--------------------------
DO REPEAT文
---------------------------------------------
DO REPEAT 代理変数={変数リスト }{変数リスト}
[/代理変数=...]
命令文
END REPEAT [PRINT].
---------------------------------------------
例:
------------------------
DO REPEAT i=v1 TO v10.
COMPUTE i=i/100.
END REPEAT .
------------------------
LOOP文
-------------------------------
LOOP [変数名=n TO m [BY {1**}]]
{n }
[IF [(]論理式[)]]
命令文
END LOOP [IF [(]論理式[)]]
-------------------------------
例:
-----------------
LOOP i=1 TO 5.
COMPUTE n=n+1.
END LOOP.
-----------------
統計関数
SUM 合計 vx=SUM(v1,v2,v3) or SUM(v1 TO v3)
MEAN 平均
SD 標準偏差
VARIANCE 分散
CFVAR[=変動係数]
MIN 最小値
MAX 最大値
欠損値関数
システム欠損値のカウント法
COUNT
vx = v1 TO v16 (SYSMIS) .
EXECUTE .
LAG関数
LAG(変数名, n) nケース前の変数の値 LAG(v1,10)
論理関数
RANGE(変数名,引数リスト) 指定の幅に該当するか RANGE(v1,1,4,8,10) あれば1,なければ0
ANY(変数名,引数リスト) 指定の値に一致するか ANY(v1,1,5)
戻る
進む
ホームページへ
mailto: toyomura@hokusei.ac.jp
home page: http://www.ipc.hokusei.ac.jp/~z00105/index.html