import numpy as np

# 乱数の生成
X = np.random.randint(1,100,100)
Y = np.random.randint(1,100000,100)

import pandas as pd

# データフレームに保存
data = pd.DataFrame({"X":X,"Y":Y})
data.head()

import matplotlib.pyplot as plt
%matplotlib inline

# 散布図
data.plot(kind="scatter",x="X",y="Y")
plt.xlim(0,10000)

(0.0, 10000.0)

# X, Yの最小値、最大値
X_min = data.min()[0]
X_max = data.max()[0]
Y_min = data.min()[1]
Y_max = data.max()[1]

# Xの正規化
data["X_n"] = (data["X"] - X_min) / (X_max - X_min)
# Yの正規化
data["Y_n"] = (data["Y"] - Y_min) / (Y_max - Y_min)

data.head()

data.describe()

data.plot(kind="scatter",x="X_n",y="Y_n")

<AxesSubplot:xlabel='X_n', ylabel='Y_n'>

# X, Yの平均値
X_mean = data["X"].mean()
X_std = data["X"].std()
Y_mean = data["Y"].mean()
Y_std = data["Y"].std()

# Xの標準化
data["X_s"] = (data["X"] - X_mean) / X_std

# Yの標準化
data["Y_s"] = (data["Y"] - Y_mean) / Y_std

data.head()

data.describe()

data.plot(kind="scatter",x="X_s",y="Y_s")

<AxesSubplot:xlabel='X_s', ylabel='Y_s'>

学習者言語の分析（基礎）1 第6回

6.1 特徴量スケーリング（正規化と標準化）¶