import numpy as np

# Lにはデータが格納されている
L = [54,55,92,63,28]

ave = sum(L)/len(L)

# 個々のデータが平均値からどれだけ離れているか？

for i in L:
    print(i - ave)

-4.399999999999999
-3.3999999999999986
33.6
4.600000000000001
-30.4

D = []

for i in L:
    D.append(i - ave)
    
sum(D)/len(D)

1.4210854715202005e-15

# Lのデータを２乗してMに保存

L = [54,55,92,63,28]

# 空のリストを作成
M = []

for i in L:
    a = i**2
    M.append(a)

sum(M)

19158

L = [54,55,92,63,28]
a = 0
for i in L:
    a += i**2
a

19158

L = [56,57,92,73,65,24,37,91,79,99,100]

L_ave = sum(L)/len(L)

M = []

for i in L:
    M.append((i - L_ave)**2)

sum(M)/len(M)

577.2892561983471

np.var(L)

577.2892561983471

# このセルは描画に必要なデータを生成してるだけなので無視してください。
import matplotlib.pyplot as plt
from scipy.stats import norm
import math
%matplotlib inline

mu1 = 50
variance1 = 250
sigma1 = math.sqrt(variance1)
x1 = np.linspace(0, 100, 100)

L1 =[]
for i in norm.pdf(x1,mu1,sigma1):
    a = i * 1000
    L1.append(a)
    
mu2 = 80
variance2 = 200
sigma2 = math.sqrt(variance2)
x2 = np.linspace(0, 100, 100)

L2 =[]
for i in norm.pdf(x2,mu2,sigma2):
    a = i * 1000
    L2.append(a)

plt.plot(x1,L1)
plt.plot(x2,L2)

[<matplotlib.lines.Line2D at 0x123b645e0>]

X = [48,60,29,80,77]

x_m = np.average(X)
x_std = np.std(X)

X_T = []
for i in X:
    X_T.append((i-x_m)/x_std)

X_T

[-0.5713086317569043,
 0.06347873686187842,
 -1.576388632069977,
 1.1214576845598496,
 0.9627608424051539]

X = [48,60,29,80,77]

x_m = np.average(X)
x_std = np.std(X)

X_z = (X - x_m)/x_std

X_z

array([-0.57130863,  0.06347874, -1.57638863,  1.12145768,  0.96276084])

X = [48,60,29,80,77]

x_m = np.average(X)
x_std = np.std(X)

X_T = []
for i in X:
    X_T.append(round(10 * ((i-x_m)/x_std) + 50,0))

X_T

[44.0, 51.0, 34.0, 61.0, 60.0]

X = [48,60,29,80,77]

x_m = np.average(X)
x_std = np.std(X)

X_T = 10*((X - x_m)/x_std)+50

X_T

array([44.28691368, 50.63478737, 34.23611368, 61.21457685, 59.62760842])

A = ["み","り","バ"]
B = ["か","ん","ナ"]
C = ["ん","ご","ナ"]

for i,j,k in zip(A,B,C):
    print(i,j,k)

み か ん
り ん ご
バ ナ ナ

X = [48,60,29,80,77]
Y = [60,60,52,91,80]
x_m = np.average(X)
y_m = np.average(Y)
a = 0
for i,j in zip(X,Y):
    a += (i-x_m) * (j - y_m)

a / len(X)

251.92

X = [48,60,29,80,77]
Y = [60,60,52,91,80]

x_m = np.average(X)
y_m = np.average(Y)

a = 0

for i,j in zip(X,Y):
    a += (i-x_m) * (j - y_m)

cov = a / len(X)

b = 0

for i in X:
    b += (i - x_m)**2
    
x_var = b / len(X)

c = 0

for i in Y:
    c += (i - y_m)**2
    
y_var = c / len(Y)

cov /(x_var*y_var)**0.5

0.917333574026356

np.corrcoef(X,Y)

array([[1.        , 0.91733357],
       [0.91733357, 1.        ]])

教育データ分析入門1（第2回）1

2.1 分散の復習¶

2.2 for文（個々のデータに同じ処理をする）¶

2.2.1 for文の練習¶

2.3 標準化と標準得点¶

2.4 共分散と相関係数¶

2.4.1 関係の強さを表す指標¶

2.4.2 相関係数¶

練習問題¶