# 使用するパッケージのimport
import os
import numpy as np
from scipy.stats import mode
import pandas as pd
from nltk import word_tokenize,sent_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

import spacy
from spacy import displacy
nlp = spacy.load("en_core_web_sm")
#nlp = spacy.load("/opt/homebrew/lib/python3.9/site-packages/en_core_web_sm/en_core_web_sm-3.5.0/")

# 対象とするテキストファイルの読み込み

fnames = os.listdir("../DATA02/NICE_NNS2/")

## ファイル名をソート ##
fnames.sort()

T = []

for i in fnames:
    f = open("../DATA02/NICE_NNS2/"+i,"r")
    text = f.read()
    f.close()
    T.append(text)

def feature_count(X):
    s = len(sent_tokenize(X))
    tokens = word_tokenize(X)
    w = len(tokens)
    types = len(list(set(tokens)))
    ttr = types / w
    wps = w / s
    F = [s,w,ttr,wps]
    return F

Features_1 = []

for i in T:
    j = feature_count(i)
    Features_1.append(j)

Features_1[0]

[25, 392, 0.44387755102040816, 15.68]

CLAUSE = ["advcl","relcl","ccomp","csubj"]

CpS = []

for i in T:
    c = 0
    sents = sent_tokenize(i)
    s = len(sents)
    for j in sents:
        doc = nlp(j)
        for token in doc:
            if token.dep_ in CLAUSE:
                c +=1
    CpS.append(c/s)

NL = []

for i in T:
    tmp = []
    sents = sent_tokenize(i)
    for j in sents:
        doc = nlp(j)
        for chunk in doc.noun_chunks:
            tmp.append(len(chunk.text.split()))
    NL.append(sum(tmp)/len(tmp))

X = []

for i,j,k in zip(Features_1,CpS,NL):
    x = i + [j] + [k]
    X.append(x)

X[0]

[25, 392, 0.44387755102040816, 15.68, 0.28, 1.8144329896907216]

# スコアの読み込み
Eva = pd.read_csv("../DATA02/nice_evaluation.csv",index_col=0)
Y = list(Eva["score"])

# 上でリストに保存した特徴量をデータフレームに保存
data = pd.DataFrame(X,columns=["sents","words","TTR","WPS","CPS","NPL"])
data.head()

# それぞれの特徴量の変動係数を計算
CV = []

for i in data.columns:
    cv = data[i].std()/data[i].mean()
    CV.append(cv)

# 算出した変動係数をデータフレームに保存
data_cv = pd.DataFrame([CV],columns=data.columns,index=["CV"])
data_cv

CC = []

for i in data.columns:
    cc = np.corrcoef(Y,data[i].values)[0][1]
    CC.append(cc)

data_cc = pd.DataFrame([CC],columns=data.columns,index=["CC"])
data_cc

data.corr()

data_corr = data
data_corr["score"] = Y
data_corr.head()

sns.pairplot(data_corr,hue="score",plot_kws=dict(alpha=0.4),palette="viridis")

<seaborn.axisgrid.PairGrid at 0x30173f790>

# データの分割
X_text_train,X_text_test,y_train,y_test = train_test_split(T,Y,test_size=0.2)

# 作文のベクトル化
vectorizer = CountVectorizer(min_df=1,ngram_range=(2,2))
vectorizer.fit(X_text_train)

X_train_wordfreq = vectorizer.transform(X_text_train).toarray()
X_test_wordfreq = vectorizer.transform(X_text_test).toarray()

# ナイーブベイズ分類器のクラス
from sklearn.naive_bayes import MultinomialNB

# インスタンスの生成
nbc_m = MultinomialNB()

# トレーニングデータでモデル構築
nbc_m.fit(X_train_wordfreq,y_train)

# テストデータの評価を予測して、予測精度の出力
nbc_m.score(X_test_wordfreq,y_test)

/Users/yusukekondo/Library/Python/3.9/lib/python/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: divide by zero encountered in matmul
  ret = a @ b
/Users/yusukekondo/Library/Python/3.9/lib/python/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: overflow encountered in matmul
  ret = a @ b
/Users/yusukekondo/Library/Python/3.9/lib/python/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: invalid value encountered in matmul
  ret = a @ b

0.44

X_train_count = []

for i in X_text_train:
    j = feature_count(i)
    X_train_count.append(j)
    
X_test_count = []

for i in X_text_test:
    j = feature_count(i)
    X_test_count.append(j)

CLAUSE = ["advcl","relcl","ccomp","csubj"]

X_train_CPS = []

for i in X_text_train:
    c = 0
    sents = sent_tokenize(i)
    s = len(sents)
    for j in sents:
        doc = nlp(j)
        for token in doc:
            if token.dep_ in CLAUSE:
                c +=1
    X_train_CPS.append(c/s)
    
X_test_CPS = []

for i in X_text_test:
    c = 0
    sents = sent_tokenize(i)
    s = len(sents)
    for j in sents:
        doc = nlp(j)
        for token in doc:
            if token.dep_ in CLAUSE:
                c +=1
    X_test_CPS.append(c/s)

X_train_NL = []

for i in X_text_train:
    tmp = []
    sents = sent_tokenize(i)
    for j in sents:
        doc = nlp(j)
        for chunk in doc.noun_chunks:
            tmp.append(len(chunk.text.split()))
    X_train_NL.append(sum(tmp)/len(tmp))
    
X_test_NL = []

for i in X_text_test:
    tmp = []
    sents = sent_tokenize(i)
    for j in sents:
        doc = nlp(j)
        for chunk in doc.noun_chunks:
            tmp.append(len(chunk.text.split()))
    X_test_NL.append(sum(tmp)/len(tmp))

# 特徴量をまとめる
X_train = []

for i,j,k in zip(X_train_count,X_train_CPS,X_train_NL):
    x = i + [j] + [k] 
    X_train.append(x)
    
X_test = []

for i,j,k in zip(X_test_count,X_test_CPS,X_test_NL):
    x = i + [j] + [k] 
    X_test.append(x)

# インスタンスの生成
knn = KNeighborsClassifier(n_neighbors=5)

# 学習
knn.fit(X_train,y_train)

# 精度
knn.score(X_test,y_test)

0.6

# インスタンスの生成
nbc_g = GaussianNB()

# 学習
nbc_g.fit(X_train,y_train)

# 精度
nbc_g.score(X_test,y_test)

0.4

# それぞれの手法の予測スコアを保存
K = knn.predict(X_test)
G = nbc_g.predict(X_test)
M = nbc_m.predict(X_test_wordfreq)

/Users/yusukekondo/Library/Python/3.9/lib/python/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: divide by zero encountered in matmul
  ret = a @ b
/Users/yusukekondo/Library/Python/3.9/lib/python/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: overflow encountered in matmul
  ret = a @ b
/Users/yusukekondo/Library/Python/3.9/lib/python/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: invalid value encountered in matmul
  ret = a @ b

# from scipy.stats import modeを用いて最頻値を取得
P = []
for i,j,k in zip(G,K,M):
    tmp = [i,j,k]
    m,l = mode(tmp)
    P.append(m)

# 一致度を算出
n = len(P)
c = 0
for i,j in zip(P,y_test):
    if i == j:
        c += 1
        
c/n

0.52

cm = confusion_matrix(y_test,K)
sns.heatmap(cm,annot=True,cmap="Blues")

<Axes: >

cm = confusion_matrix(y_test,P)
sns.heatmap(cm,annot=True,cmap="Blues")

<Axes: >

	sents	words	TTR	WPS	CPS	NPL
0	25	392	0.443878	15.680000	0.280000	1.814433
1	18	288	0.350694	16.000000	0.611111	1.931507
2	26	548	0.452555	21.076923	0.884615	1.784722
3	21	332	0.400602	15.809524	0.809524	1.365385
4	18	391	0.493606	21.722222	1.166667	1.690000

	sents	words	TTR	WPS	CPS	NPL
sents	1.000000	0.714656	-0.566967	-0.290585	-0.278658	-0.086715
words	0.714656	1.000000	-0.581803	0.417961	0.245815	0.237285
TTR	-0.566967	-0.581803	1.000000	-0.083262	-0.185807	-0.001388
WPS	-0.290585	0.417961	-0.083262	1.000000	0.714217	0.445935
CPS	-0.278658	0.245815	-0.185807	0.714217	1.000000	0.017773
NPL	-0.086715	0.237285	-0.001388	0.445935	0.017773	1.000000

	sents	words	TTR	WPS	CPS	NPL	score
0	25	392	0.443878	15.680000	0.280000	1.814433	3
1	18	288	0.350694	16.000000	0.611111	1.931507	3
2	26	548	0.452555	21.076923	0.884615	1.784722	5
3	21	332	0.400602	15.809524	0.809524	1.365385	3
4	18	391	0.493606	21.722222	1.166667	1.690000	3

学習者言語の分析（基礎）2（第6回）

6.1 特徴量¶

6.2 特徴量選択¶

6.2.1 変動係数¶

6.2.2 スコアとの相関¶

6.2.3 特徴量同士の相関係数¶

6.3 機械学習による予測¶