import pandas as pd
import numpy as np
from scipy.stats import t,scoreatpercentile,norm
import matplotlib.pyplot as plt
%matplotlib inline

data = pd.read_csv("../DATA01/IEDA_reg.csv",index_col=0)
data.describe()

data.plot(kind="hist",alpha=0.5)

<AxesSubplot: ylabel='Frequency'>

x = data["X"].values
y = data["Y"].values

x_i = np.arange(60,160,1)

a,b = np.polyfit(x,y,1)

y_hat = a*x_i +b

plt.scatter(x,y)
plt.plot(x_i,y_hat,color="red")
y_i = x_i
plt.plot(x_i,y_i,linestyle="dotted",color="red")

[<matplotlib.lines.Line2D at 0x179190460>]

data["diff"] = data["Y"] - data["X"]
d = data["diff"]

x_i = np.arange(60,160,1)

a,b = np.polyfit(x,d,1)

y_hat = a*x_i +b

plt.scatter(x,d)
plt.plot(x_i,y_hat,color="red")

[<matplotlib.lines.Line2D at 0x1792177c0>]

data.corr()

data[data["X"] < 101].mean()[0]

83.84615384615384

data[data["X"] < 101].mean()[1]

91.53846153846153

## １回目のスコアをx、2回目のスコアをyに保存する。
x = data["X"].values
y = data["Y"].values

mu = np.average(x)
sigma = np.std(x,ddof=1)
z = (100 - mu)/sigma
z

-0.26434293248823776

phi = norm.pdf(z)
Phi = norm.cdf(z)
C = phi / Phi
C

0.9734348716713084

rho = np.corrcoef(x,y)[0][1]

E_y2 = mu - rho * C * sigma
E_y1 = mu - C * sigma
E_y2 - E_y1

2.3503179132614207

C * sigma * (1 - rho)

2.350317913261422

# 平均50、標準偏差10のデータを生成する。
x = np.random.normal(50, 10, 1000)

# カットオフスコアを30とし、30以下のデータの平均値を算出する
L = []

for i in x:
    if i <= 30:
        L.append(i)

np.average(L)

26.496855111254774

# 30を標準化する
z = (30 - np.average(x))/np.std(x,ddof=1)
z

-2.0371031574101486

phi = norm.pdf(z)
Phi = norm.cdf(z)
C = phi /(Phi)
C

2.4061190974227036

np.average(x) - C * np.std(x,ddof=1)

26.38062490557109

	X	Y
count	30.000000	30.000000
mean	106.333333	110.666667
std	23.958777	21.684785
min	60.000000	70.000000
25%	90.000000	96.250000
50%	105.000000	105.000000
75%	128.750000	130.000000
max	145.000000	150.000000

	X	Y	diff
X	1.000000	0.899224	-0.425399
Y	0.899224	1.000000	0.013400
diff	-0.425399	0.013400	1.000000

教育データ分析入門2（第5回）

5.2 平均への回帰¶

5.2.1 概要¶

5.2.2 導出¶

5.2.3 平均への回帰とカットオフスコア¶

5.2.4 平均への回帰とカットオフスコアの例¶

5.2.5 カットオフスコアを用いた場合の平均への回帰の算出¶

練習問題¶