# pandasのimport
import pandas as pd

# 今回使うデータ
# 92人の受験者が10問の問題に回答した結果
# 1が正解、0が不正解を示す
data = pd.read_csv("../DATA01/IEDA06_01.csv",index_col=0)
data.head()

# 項目困難度の算出（最も難しい項目はQ03）
item_diff = data.mean()
item_diff

Q01    0.771739
Q02    0.923913
Q03    0.706522
Q04    0.891304
Q05    0.967391
Q06    0.891304
Q07    0.869565
Q08    0.815217
Q09    0.923913
Q10    0.913043
dtype: float64

import numpy as np

# それではQ01を例に点双列相関係数を求めてみましょう。

# Q01に正答/誤答した人の割合は
# 以下のように条件指定をしてその行数をデータ全体の行数で割る
p = len(data[data["Q01"]==1])/len(data)
q = len(data[data["Q01"]==0])/len(data)

# Q01に正答/誤答した人のテストの平均点は
# 条件指定して合計を算出し、その平均を算出する
X_p = data[data["Q01"]==1].sum(axis=1).mean()
X_q = data[data["Q01"]==0].sum(axis=1).mean()

# SDはテスト得点の標準偏差
SD = data.sum(axis=1).std()

r_pbi = (np.sqrt(p*q) * (X_p- X_q) / SD) 
r_pbi

0.5797567974416593

import numpy as np
# forを使って全項目の点双列相関係数を求める

# 算出した値を保存するリスト
R_pbi = []

# コラム名を取得して全項目に関して同様の処理をする
# 前のコードと違う部分は"Q01"がiになっているだけ
for i in data.columns:
    X_p = data[data[i]==1].sum(axis=1).mean()
    X_q = data[data[i]==0].sum(axis=1).mean()
    SD = data.sum(axis=1).std()
    p = len(data[data[i]==1])/len(data)
    q = len(data[data[i]==0])/len(data)
    r_pbi = ((X_p - X_q) / SD) * np.sqrt(p*q)
    R_pbi.append(r_pbi)
    
R_pbi

[0.5797567974416593,
 0.19789666579271892,
 0.39789120504323705,
 0.42007059274596065,
 0.4407413274125061,
 0.4953559717056259,
 0.3267216171199718,
 0.4921935415353277,
 0.5219604615568473,
 0.34350154895027657]

import matplotlib.pyplot as plt
%matplotlib inline
import japanize_matplotlib

C = [0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]

S = []

for i in C:
    j = 2 * i / (1+i)
    S.append(j)
    
plt.plot(C,S)
plt.xlabel("相関係数")
plt.ylabel("信頼性係数")

Text(0, 0.5, '信頼性係数')

# 項目数
n_item = len(data.columns)
n_item

10

# 各項目の分散の合計
item_var = sum(data.var())
item_var

1.104873387482083

# 合計得点の分散
total_var = data.sum(axis=1).var()
total_var

1.936454849498328

# 信頼性係数
alpha = n_item / (n_item - 1) * (1 - (item_var / total_var))
alpha

0.4771499849220057

# alphaを保存しておくリスト
A = []

# 項目数は一定なのであらかじめ代入しておく
n_item = 9

# drop()を用いてひとつずつ順番に項目を削除し、
# 残った項目で信頼性係数を計算する。

for i in data.columns:
    data_x = data.drop(i,axis=1)
    item_var = sum(data.var())
    total_var = data_x.sum(axis=1).var()
    a = n_item / (n_item -1) * (1 - (item_var / total_var))
    A.append(a)
A

[0.2557117199899759,
 0.4566903217519748,
 0.36536426016497575,
 0.37913919151376163,
 0.41394772804919716,
 0.3484141791044777,
 0.4112654320987653,
 0.32371794871794884,
 0.3568409980069388,
 0.41243837304848]

item_property = pd.DataFrame({"difficulty":item_diff,
                                                         "discrimination":R_pbi,
                                                         "alpha_if_dropped":A},
                                                        index = data.columns)
item_property

# 項目困難度と識別力の散布図
item_property.plot(kind="scatter",x="difficulty",y="discrimination")

<AxesSubplot: xlabel='difficulty', ylabel='discrimination'>

# ある項目を抜いた場合のクロンバックのαと識別力の散布図
item_property.plot(kind="scatter",x="alpha_if_dropped",y="discrimination")

<AxesSubplot: xlabel='alpha_if_dropped', ylabel='discrimination'>

# 項目困難度とある項目を抜いた場合のクロンバックのα
item_property.plot(kind="scatter",x="difficulty",y="alpha_if_dropped")

<AxesSubplot: xlabel='difficulty', ylabel='alpha_if_dropped'>

教育データ分析入門1（第6回）

6.1 項目困難度¶

6.2 識別力¶

点双列相関係数¶

6.3 測定具の信頼性¶

6.3.1 折半法¶

6.3.2 クロンバックのα¶

6.3.3 ある項目を抜いた場合のクロンバックのα¶

6.4 項目に関する情報をまとめる¶

6.5 項目に関する情報の可視化¶

演習問題¶

	Q01	Q02	Q03	Q04	Q05	Q06	Q07	Q08	Q09	Q10
S001	1	1	1	1	1	1	1	1	1	1
S002	1	1	0	1	1	1	1	1	1	1
S003	1	1	1	1	1	0	1	1	1	1
S004	1	1	1	0	1	1	1	1	1	1
S005	0	1	1	1	1	1	1	1	1	1

	difficulty	discrimination	alpha_if_dropped
Q01	0.771739	0.579757	0.255712
Q02	0.923913	0.197897	0.456690
Q03	0.706522	0.397891	0.365364
Q04	0.891304	0.420071	0.379139
Q05	0.967391	0.440741	0.413948
Q06	0.891304	0.495356	0.348414
Q07	0.869565	0.326722	0.411265
Q08	0.815217	0.492194	0.323718
Q09	0.923913	0.521960	0.356841
Q10	0.913043	0.343502	0.412438