import numpy as np

# サイコロを10000回振る。

U = []

for i in range(10000):
    U.append(np.random.randint(1,7))

# 10000回振って出た目のうち、目が偶数のものの割合

A = []

for i in U:
    if i % 2 == 0:
        A.append(i)
        
P_A = len(A)/len(U)
P_A

0.4986

# 10000回振って出た目のうち、目が偶数かつ３以上のものの割合

A_B = []

for i in U:
    if i % 2 == 0 and i > 3:
        A_B.append(i)

P_A_B = len(A_B)/len(U)
P_A_B

0.3301

# P(B|A)の確率

BA = []

for i in A:
    if i > 3:
        BA.append(i)

P_BA = len(BA)/len(A)
P_BA

0.6620537505014039

# d１とd2は同じ確率で1か0が出る。
# 1だったらM（男）、2だったらF（女）とする。
C = []

for i in range(10000):
    d1 = np.random.randint(2)
    d2 = np.random.randint(2)
    if d1 == 0:
        c1 = "M"
    else:
        c1 = "F"
    
    if d2 == 0:
        c2 = "M"
    else:
        c2 = "F"
    
    C.append([c1,c2])

A = []

for i in C:
    if "M" in i:
        A.append(i)
        
P_A = len(A)/len(C)
P_A

0.7449

A_B = []

for i in C:
    if "M" in i and i == ["M","M"]:
        A_B.append(i)
        
P_A_B = len(A_B) / len(C)
P_A_B

0.2485

BA = []

for i in A:
    if i  == ["M","M"]:
        BA.append(i)
        
P_BA = len(BA)/len(A)
P_BA

0.3336018257484226

import os

# データの取得Y = [0] * len(Feature_NNS) + [1] * len(Feature_NS)

fname_NS = os.listdir("../DATA02/NICE_NS/")

T_NS = []

for i in fname_NS:
    f = open("../DATA02/NICE_NS/"+i,"r")
    text = f.read()
    f.close()
    T_NS.append(text)
    
fname_NNS = os.listdir("../DATA02/NICE_NNS/")

T_NNS = []

for i in fname_NNS:
    f = open("../DATA02/NICE_NNS/"+i,"r")
    text = f.read()
    f.close()
    T_NNS.append(text)

# テキストの結合
X_text = T_NNS + T_NS
# 正解ラベルの作成
Y = [0] * len(T_NNS) + [1] * len(T_NS)

# データの分割
from sklearn.model_selection import train_test_split
X_text_train,X_text_test,y_train,y_test = train_test_split(X_text,Y,test_size=0.2)

# 作文のベクトル化
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1,ngram_range=(2,2))
vectorizer.fit(X_text_train)

X_train = vectorizer.transform(X_text_train).toarray()
X_test = vectorizer.transform(X_text_test).toarray()

# ナイーブベイズ分類器のクラス
from sklearn.naive_bayes import MultinomialNB

# インスタンスの生成
nbc = MultinomialNB()

# トレーニングデータでモデル構築
nbc.fit(X_train,y_train)

# テストデータの評価を予測して、予測精度の出力
nbc.score(X_test,y_test)

0.972972972972973

S = []

vectorizer = CountVectorizer(min_df=1,ngram_range=(2,2))
nbc = MultinomialNB()

for i in range(10):
    X_text_train,X_text_test,y_train,y_test = train_test_split(X_text,Y,test_size=0.2)
    vectorizer.fit(X_text_train)
    X_train = vectorizer.transform(X_text_train).toarray()
    X_test = vectorizer.transform(X_text_test).toarray()
    nbc.fit(X_train,y_train)
    S.append(nbc.score(X_test,y_test))

np.average(S)

0.963963963963964

from sklearn.metrics import confusion_matrix

X_text_train,X_text_test,y_train,y_test = train_test_split(X_text,Y,test_size=0.2)
vectorizer.fit(X_text_train)
X_train = vectorizer.transform(X_text_train).toarray()
X_test = vectorizer.transform(X_text_test).toarray()

nbc = MultinomialNB()
nbc.fit(X_train,y_train)
Y_pred = nbc.predict(X_test)

cm = confusion_matrix(y_test,Y_pred)
cm

array([[71,  2],
       [ 4, 34]])

import seaborn as sns
sns.heatmap(cm,annot=True,cmap="Blues")

<AxesSubplot: >

from nltk import word_tokenize,sent_tokenize
def counters(X):
    s = len(sent_tokenize(X))
    tokens = word_tokenize(X)
    w = len(tokens)
    types = len(list(set(tokens)))
    ttr = types / w
    wps = w / s
    Y = [s,w,ttr,wps]
    return Y

# 以下のようにimportしてください。
from sklearn.naive_bayes import GaussianNB

学習者言語の分析（基礎）2 第3回

3.1 ベイズの定理¶

3.1.0 確率、割合、面積¶

3.1.1 条件付き確率¶

3.1.2 例題1¶

3.1.3 例題2¶

3.1.4 ベイズの定理¶

3.1.5 自動採点におけるベイズの定理の利用¶

3.2 ナイーブベイズ分類器の実装¶

3.2.1 準備¶

3.2.2 データの分割とベクトル化¶

3.2.3 ナイーブベイズ分類器による予測精度の検証¶

3.2.4 交差検証¶

3.2.5 混同行列¶

練習問題1¶

練習問題2¶

例題2の解答¶