教育データ分析入門1(第3回)1

  • 3.1 ディレクトリの位置
  • 3.2 ファイルの読み込みと表示

コンピュータに保存してあるcsv形式のデータを読み込み、Pandasというパッケージを利用してデータを分析する方法を学びます。

3.1 ディレクトリの位置¶

  • 一般的にはフォルダと呼んでいるものをサーバ上ではディレクトリと呼びます。
  • 以下のコードを実行してみてください。
  • 以下はあなたが今このこのコードを実行したファイルのこのサーバ上での位置を示します。
  • ここでは、今みなさんが使っているjupyter notebookのファイル以外のファイルの操作について学びます。
  • 自分のフォルダの外のファイルを操作できるようになりますので、入力には十分気をつけてください。
In [ ]:
import os
os.getcwd()
  • "/home/yusukekondo/courses/IEDA01/あなたの学籍番号/"という出力が得られるはずです。
  • os.getcwd()というコードはこのコードを実行したファイルの場所を出力します。
  • 得られた出力は「homeというディレクトリの中にあるyusukekondoというディレクトリの中にあるcoursesというディレクトリの中にあるIEDA01の中にある"あなたの学生番号"というディレクトリの中(にある"作成したディレクトリの名前"の中)」に実行したファイルがあるという意味です。
  • コンピュータに保存してあるファイルを読み込む場合は、あなたが今使っているファイルを原点として、読み込みたいファイルの場所を指定します。
  • 例えば、あなたのディレクトリのひとつ上の階層にDATA01というディレクトリがあり、その中にsample01.csvというファイルを指定したいときは"../DATA01/sample01.csv"と書きます。"../"は「ひとつ上の階層という意味です。
  • 2つ上の階層を示す場合は"../../"と"../"を2回繰り返します。
  • あなたのディレクトリのひとつ上の階層にあるDATA01というディレクトリの中にEX01というディレクトリがあり、その中のsample02.csvというファイルを参照したい場合は、"../DATA01/EX01/sample02.csv"と示します。

3.2 ファイルの読み込みと表示¶

  • Pandasを用いてコンピュータに保存してあるファイルを読み込み表示する方法を学びます。
In [1]:
# Pandasのimport
import pandas as pd

# ファイルの読み込み
# 第一引数にファイルの位置を示します。
# 第二引数にはindex(ここではファイル内での受験者番号の列番号)を示します。
data = pd.read_csv("../DATA01/sample.csv",index_col=0)

# "data"という名前の変数に読み込んだファイルの中身が保存されます。
# 表示するには変数の名前を書くだけ
data
Out[1]:
English Math
EX001 88 85
EX002 20 70
EX003 33 45
EX004 52 66
EX005 35 60
EX006 79 70
EX007 55 60
EX008 22 30
EX009 45 50
EX010 95 100
  • これは架空のデータで10の受験者が英語と数学のテストを受験した結果です。
  • "EX001"が始まる列がPandasではindexと呼ばれ、この授業では基本的には受験者番号がindexになります。