# British National Corpusの頻度データ読み込み
import pandas as pd
df_bnc = pd.read_csv("../DATA01/BNC.csv",index_col=0)
df_bnc.head()

import spacy
nlp = spacy.load("en_core_web_sm")

text = "Harrison got very excited when his parents gave him a car"
doc = nlp(text)

Div = []
n = 0
for token in doc:
    w = token.lemma_
    if not df_bnc[df_bnc["Word"] == w].empty:
        n += 1
        d = 1000/min(df_bnc[df_bnc["Word"] == w]["Freq"].values)
        Div.append(d)
float(d/n)

0.031545741324921134

text = "Carley went shopping for a dress today"
doc = nlp(text)

Div = []
n = 0
for token in doc:
    w = token.lemma_
    if not df_bnc[df_bnc["Word"] == w].empty:
        n += 1
        d = 1000/min(df_bnc[df_bnc["Word"] == w]["Freq"].values)
        Div.append(d)
float(d/n)

0.006466214031684449

	Word	Pos	Rank	Freq
ID0000	a	det	5	2186369
ID0001	abandon	v	2107	4249
ID0002	abbey	n	5204	1110
ID0003	ability	n	966	10468
ID0004	able	a	321	30454

7 複雑さ¶

演習問題15¶