教育データ分析入門1(第3回)1
コンピュータに保存してあるcsv形式のデータを読み込み、Pandasというパッケージを利用してデータを分析する方法を学びます。
3.1 ディレクトリの位置¶
- 一般的にはフォルダと呼んでいるものをサーバ上ではディレクトリと呼びます。
- 以下のコードを実行してみてください。
- 以下はあなたが今このこのコードを実行したファイルのこのサーバ上での位置を示します。
- ここでは、今みなさんが使っているjupyter notebookのファイル以外のファイルの操作について学びます。
- 自分のフォルダの外のファイルを操作できるようになりますので、入力には十分気をつけてください。
In [ ]:
import os
os.getcwd()
- "/home/yusukekondo/courses/IEDA01/あなたの学籍番号/"という出力が得られるはずです。
- os.getcwd()というコードはこのコードを実行したファイルの場所を出力します。
- 得られた出力は「homeというディレクトリの中にあるyusukekondoというディレクトリの中にあるcoursesというディレクトリの中にあるIEDA01の中にある"あなたの学生番号"というディレクトリの中(にある"作成したディレクトリの名前"の中)」に実行したファイルがあるという意味です。
- コンピュータに保存してあるファイルを読み込む場合は、あなたが今使っているファイルを原点として、読み込みたいファイルの場所を指定します。
- 例えば、あなたのディレクトリのひとつ上の階層にDATA01というディレクトリがあり、その中にsample01.csvというファイルを指定したいときは"../DATA01/sample01.csv"と書きます。"../"は「ひとつ上の階層という意味です。
- 2つ上の階層を示す場合は"../../"と"../"を2回繰り返します。
- あなたのディレクトリのひとつ上の階層にあるDATA01というディレクトリの中にEX01というディレクトリがあり、その中のsample02.csvというファイルを参照したい場合は、"../DATA01/EX01/sample02.csv"と示します。
3.2 ファイルの読み込みと表示¶
- Pandasを用いてコンピュータに保存してあるファイルを読み込み表示する方法を学びます。
In [1]:
# Pandasのimport
import pandas as pd
# ファイルの読み込み
# 第一引数にファイルの位置を示します。
# 第二引数にはindex(ここではファイル内での受験者番号の列番号)を示します。
data = pd.read_csv("../DATA01/sample.csv",index_col=0)
# "data"という名前の変数に読み込んだファイルの中身が保存されます。
# 表示するには変数の名前を書くだけ
data
Out[1]:
English | Math | |
---|---|---|
EX001 | 88 | 85 |
EX002 | 20 | 70 |
EX003 | 33 | 45 |
EX004 | 52 | 66 |
EX005 | 35 | 60 |
EX006 | 79 | 70 |
EX007 | 55 | 60 |
EX008 | 22 | 30 |
EX009 | 45 | 50 |
EX010 | 95 | 100 |
- これは架空のデータで10の受験者が英語と数学のテストを受験した結果です。
- "EX001"が始まる列がPandasではindexと呼ばれ、この授業では基本的には受験者番号がindexになります。