# 使用するパッケージのimport
import os
import numpy as np
import pandas as pd
from nltk import word_tokenize,sent_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.naive_bayes import GaussianNB
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# 対象とするテキストファイルの読み込み

fnames = os.listdir("../DATA02/NICE_NNS2/")

## ファイル名をソート ##
fnames.sort()

X_text = []

for i in fnames:
    f = open("../DATA02/NICE_NNS/"+i,"r")
    text = f.read()
    f.close()
    X_text.append(text)

# スコアの読み込み
E = pd.read_csv("../DATA02/nice_evaluation.csv",index_col=0)
Y = list(E["score"])

# データの分割
X_text_train,X_text_test,y_train,y_test = train_test_split(X_text,Y,test_size=0.2)

# 作文のベクトル化
vectorizer = CountVectorizer(min_df=1,ngram_range=(2,2))
vectorizer.fit(X_text_train)

X_train = vectorizer.transform(X_text_train).toarray()
X_test = vectorizer.transform(X_text_test).toarray()

# ナイーブベイズ分類器のクラス
from sklearn.naive_bayes import MultinomialNB

# インスタンスの生成
nbc = MultinomialNB()

# トレーニングデータでモデル構築
nbc.fit(X_train,y_train)

# テストデータの評価を予測して、予測精度の出力
nbc.score(X_test,y_test)

0.4

X_text_train,X_text_test,y_train,y_test = train_test_split(X_text,Y,test_size=0.2)
vectorizer.fit(X_text_train)
X_train = vectorizer.transform(X_text_train).toarray()
X_test = vectorizer.transform(X_text_test).toarray()

nbc = MultinomialNB()
nbc.fit(X_train,y_train)
Y_pred = nbc.predict(X_test)

cm = confusion_matrix(y_test,Y_pred)
cm

array([[ 0,  5,  2,  0],
       [ 0, 12,  2,  0],
       [ 0,  2,  1,  0],
       [ 0,  1,  0,  0]])

sns.heatmap(cm,annot=True,cmap="Blues")

<matplotlib.axes._subplots.AxesSubplot at 0x7f8569d7f240>

from nltk import word_tokenize,sent_tokenize
def counters(X):
    s = len(sent_tokenize(X))
    tokens = word_tokenize(X)
    w = len(tokens)
    types = len(list(set(tokens)))
    ttr = types / w
    wps = w / s
    Y = [s,w,ttr,wps]
    return Y

X = []
for i in X_text:
    X.append(counters(i))

# 交差検証

S = []

nbc = GaussianNB()

for i in range(100):
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3)
    nbc.fit(X_train,Y_train)
    S.append(nbc.score(X_test,Y_test))
    
np.average(S)

0.5143243243243244

nbc = MultinomialNB()
nbc.fit(X_train,Y_train)
Y_pred = nbc.predict(X_test)

cm = confusion_matrix(Y_test,Y_pred)
cm

array([[ 4,  7,  0,  0],
       [ 0, 11,  1,  0],
       [ 1,  9,  1,  0],
       [ 0,  1,  1,  1]])

sns.heatmap(cm,annot=True,cmap="Blues")

<matplotlib.axes._subplots.AxesSubplot at 0x7f8569efda58>

練習問題1¶

練習問題2¶