# 問題19の解答欄
import pandas as pd
import numpy as np

df = pd.read_csv("../test01/test01_03.csv",index_col=0)

sigma = df["TEST_A"].std()

SEM = sigma * np.sqrt(1 - 0.8)

z = 2.23

upper = 100 + z * SEM
lower = 100 - z * SEM

print(lower,upper)

78.6278139284378 121.3721860715622

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# データの読み込み
data = pd.read_csv("../DATA01/IEDA2_02.csv",index_col = 0)

# 散布図の描画
data.plot(kind = "scatter",x="TEST_A",y="TEST_B")

<Axes: xlabel='TEST_A', ylabel='TEST_B'>

X = data["TEST_A"].values
Y = data["TEST_B"].values

x = np.arange(70,250,0.1) 

a = 0.5
b = 90
y = a*x + b

plt.scatter(x=data["TEST_A"],y=data["TEST_B"])
plt.plot(x,y,color="red")

[<matplotlib.lines.Line2D at 0x10924b3d0>]

# 傾き(a)の候補として0.1から1未満0.1ずつ変化させたリストを作成
A = np.arange(0.1,1,0.1)
# 切片(b)の候補として1から90未満まで1ずつ変化させたリストを作成
B = np.arange(1,90,1)

# 傾きの候補が0.10のとき、切片の候補が1から100未満まで、
# 傾きの候補が0.11のとき、切片の候補が1から100未満まで、
# のように全通りのリストDを作成
D = []

for a in A:
    for b in B:
        D.append([a,b])

# 傾きが0.1で切片が1、傾きが0.1で切片が2のように
# 全通りの誤差（実際の値と予測値の差）を計算したリストEを作成
E = []

for a,b in D:
    diff = 0
    for x,y in zip(X,Y):
        d = (y - (a*x+b))**2
        diff += d
    E.append(diff)

# Eの最小値を算出
np.min(E)

np.float64(143885.0)

# Eの最小値の要素番号を取得
E.index(np.min(E))

440

# 誤差が最小となる傾きと切片の組み合わせ
D[440]

[np.float64(0.5), np.int64(85)]

mu_x = np.average(X)
s2_x = np.var(X,ddof=1)
mu_y = np.average(Y)
cov_xy = np.cov(X,Y)[0][1]
a = cov_xy / s2_x
b = mu_y - a * mu_x
print(a,b)

0.48492450764523504 87.14887255082185

a,b = np.polyfit(X,Y,1)
print(a,b)

0.4849245076452346 87.14887255082185

X = np.arange(75,250,1)

for i in X:
    y_hat = 0.48 * i + 87.14
    if y_hat > 180:
        print(i)
        break

194

# データの読み込みと確認
import pandas as pd

data = pd.read_csv("../DATA01/IEDA2_03.csv",index_col=0)
data.head()

# 散布図
data.plot(kind="scatter",x="pretest",y="posttest")

<Axes: xlabel='pretest', ylabel='posttest'>

# 必要な統計量を求める
mu_2 = data["posttest"].mean()
r_12 = data.corr()["pretest"][1]
sigma_1 = data["pretest"].std()
sigma_2 = data["posttest"].std()
mu_1 = data["pretest"].mean()

/var/folders/nz/_yfjsvk16fbcf6x8w1wcsf1w0000gn/T/ipykernel_17008/3702593153.py:3: FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`
  r_12 = data.corr()["pretest"][1]

# 表計算
data["expected"] = mu_2 + r_12*(sigma_2/sigma_1)*(data["pretest"] - mu_1)

# データの確認
data.head()

# 差の計算
data["diff_1"] = data["posttest"] - data["expected"]

# データの確認
data.head()

# 上がった人数の確認
len(data[data["diff_1"] > 0])

108

# SEDの計算
SED = data["pretest"].std() * np.sqrt(2 - 0.8 - 0.8)

# SEDを考慮したスコアの計算
data["diff_2"] = data["posttest"] - (data["pretest"] + SED)
data.head()

# 上がった人数の確認
len(data[data["diff_2"] > 0])

118

	pretest	posttest
S001	510	585
S002	722	800
S003	513	607
S004	730	800
S005	483	445

	pretest	posttest	expected
S001	510	585	569.237508
S002	722	800	796.900825
S003	513	607	572.459159
S004	730	800	805.491893
S005	483	445	540.242652

	pretest	posttest	expected	diff_1
S001	510	585	569.237508	15.762492
S002	722	800	796.900825	3.099175
S003	513	607	572.459159	34.540841
S004	730	800	805.491893	-5.491893
S005	483	445	540.242652	-95.242652

	pretest	posttest	expected	diff_1	diff_2
S001	510	585	569.237508	15.762492	18.234132
S002	722	800	796.900825	3.099175	21.234132
S003	513	607	572.459159	34.540841	37.234132
S004	730	800	805.491893	-5.491893	13.234132
S005	483	445	540.242652	-95.242652	-94.765868

第1回の練習問題の解答例¶

問題19¶

練習問題¶

練習問題その2¶

第1回の練習問題の解答例¶

問題19¶

練習問題¶

練習問題 その2¶

練習問題その2¶