# 使用するパッケージ
import os
from nltk import word_tokenize,sent_tokenize
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.metrics import confusion_matrix
import seaborn as sns

fname_NS = os.listdir("../DATA02/NICE_NS/")

T_NS = []

for i in fname_NS:
    f = open("../DATA02/NICE_NS/"+i,"r")
    text = f.read()
    f.close()
    T_NS.append(text)

fname_NNS = os.listdir("../DATA02/NICE_NNS/")

T_NNS = []

for i in fname_NNS:
    f = open("../DATA02/NICE_NNS/"+i,"r")
    text = f.read()
    f.close()
    T_NNS.append(text)

def feature_count(X):
    s = len(sent_tokenize(X))
    tokens = word_tokenize(X)
    w = len(tokens)
    types = len(list(set(tokens)))
    ttr = types / w
    wps = w / s
    Y = [s,w,ttr,wps]
    return Y

Feature_NS =[]

for i in T_NS:
    j = feature_count(i)
    Feature_NS.append(j)
    
Feature_NNS =[]

for i in T_NNS:
    j = feature_count(i)
    Feature_NNS.append(j)

# データの結合
X = Feature_NNS + Feature_NS
Y = [0] * len(Feature_NNS) + [1] * len(Feature_NS)

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2) # test_sizeでテストデータの割合を指定する

# パッケージのimport
from sklearn.neighbors import KNeighborsClassifier

# インスタンスの生成
# n_neighborsでkの値を指定
knn = KNeighborsClassifier(n_neighbors=3)

# 学習
knn.fit(X_train,Y_train)

# 予測
Y_pred = knn.predict(X_test)

# 精度
knn.score(X_test,Y_test)

0.8468468468468469

N = []
S = []

for i in range(1,31):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train,Y_train)
    score = knn.score(X_test,Y_test)
    N.append(i)
    S.append(score)

plt.xlabel("number_of_k")
plt.ylabel("accuracy")
plt.plot(N,S)

[<matplotlib.lines.Line2D at 0x177456b20>]

S = []
for i in range(1,11):
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)
    knn = KNeighborsClassifier(n_neighbors=10)
    knn.fit(X_train,Y_train)
    S.append(knn.score(X_test,Y_test))

import numpy as np
np.average(S)

0.8963963963963965

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train,Y_train)
Y_pred = knn.predict(X_test)

cm = confusion_matrix(Y_test,Y_pred)
cm

array([[63,  9],
       [ 6, 33]])

sns.heatmap(cm,annot=True,cmap="Blues")

<AxesSubplot: >

学習者言語の分析（基礎）2（第2回）

2.1 使用するデータの準備¶

2.2 k-近傍法の概要¶

2.3 k-近傍法の実装¶

2.4 交差検証¶

2.5 混同行列¶

練習問題¶