# テキストの読み込みと単語分割
f = open("../DATA02/NICE_NNS2/JPN002.txt","r")
text = f.read()
from nltk import word_tokenize
words = word_tokenize(text)

# TTRの計算
len(list(set(words)))/len(words)

0.44387755102040816

#MTLDの計算
MTLD = []
tokens = []
types = []

for w in words:
    tokens.append(w)
    if w not in types:
        types.append(w)
    ttr = len(types) / len(tokens)
    if ttr < 0.72:
        MTLD.append(len(tokens))
        types = []
        tokens = []

sum(MTLD)/len(MTLD)

61.166666666666664

from lexical_diversity import lex_div as ld
flt = ld.flemmatize(text)

# TTR
ld.ttr(flt)

0.4376899696048632

# Root TTR (Guiraud)
ld.root_ttr(flt)

7.938976988447586

# Log TTR (Herdan's C)
ld.log_ttr(flt)

0.8574471672439313

# MTLD
ld.mtld(flt)

54.833333333333336

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import spacy
nlp = spacy.load("en_core_web_sm")

# British National Corpusの頻度データ読み込み
df = pd.read_csv("../DATA01/BNC.csv",index_col=0)

f = open("../DATA02/NICE_NNS2/JPN002.txt","r")
text = f.read()

doc = nlp(text)

tmp = []
for token in doc:
    w = token.lemma_.lower()
    if not df[df["Word"] == w].empty:
        tmp.append(min(df[df["Word"] == w]["Rank"].values))

import os
files_ns = os.listdir("../DATA02/NICE_NS/")
files_nns = os.listdir("../DATA02/NICE_NNS/")

T_ns = []
T_nns = []

for i in files_ns:
    f = open("../DATA02/NICE_NS/"+i,"r")
    text = f.read()
    T_ns.append(text)
    
for i in files_nns:
    f = open("../DATA02/NICE_NNS/"+i,"r")
    text = f.read()
    T_nns.append(text)

BNC_ns = []
BNC_nns = []

for i in T_ns:
    tmp = []
    doc = nlp(i)
    for token in doc:
        w = token.lemma_.lower()
        if not df[df["Word"] == w].empty:
            tmp.append(min(df[df["Word"] == w]["Rank"].values))
    BNC_ns.append(tmp)
    
for i in T_nns:
    tmp = []
    doc = nlp(i)
    for token in doc:
        w = token.lemma_.lower()
        if not df[df["Word"] == w].empty:
            tmp.append(min(df[df["Word"] == w]["Rank"].values))
    BNC_nns.append(tmp)

BNC_ave_ns = []
BNC_ave_nns = []

for i in BNC_ns:
    BNC_ave_ns.append(np.average(i))
    
for i in BNC_nns:
    BNC_ave_nns.append(np.average(i))

labels = ["NS","NNS"]
plt.hist([BNC_ave_ns,BNC_ave_nns],bins="auto",label=labels)
plt.legend()

<matplotlib.legend.Legend at 0x17e0ca7f0>

学習者言語の分析（基礎）第5回 2

5.3 語彙の知識¶

5.3.1 語彙の多様性の操作化¶

5.3.2 語彙の洗練度の操作化¶

練習問題¶