Ryo's Log

26才(現在31才)が一回人生を仕切り直して始めていくブログです。主に技術ログ。

【pythonトレーニング】pandas 10年前には考えられなかったな・・・

qiita.com

 

この記事を見て触発されました。

 

機械学習をする際にまずは必要となるデータセットを探してくる。

この記事で紹介しているのは

 

Kaggle: Your Home for Data Science

というサイト

こちらのサイトでは様々なデータをセットを収集分析しているコミュニティです。

ここで有名なTitanic : Machine Learning from Disasterのデータセットを使おうということで名前が挙がっています。

こちらは映画にもあるタイタニック号の乗客などのデータになっています。

 

詳しくは下記を参照

www.codexa.net

Titanic: Machine Learning f

www.codexa.net

これでデータは手に入りました。

 

次にpythonの準備ですが

こちらは

www.udemy.com

 

udemyで済ませていますので、詳しい方法はほか記事をご参照ください。

 

最初にpycharmのコンソールではない方で試したのですが失敗。

ちょっとその原因はまだわかっていません。

 

コンソールで

pip install pandas-profiling

(pandasに関しては以前インストール済み)

 

import pandas as pd
import pandas_profiling as pdp
df = pd.read_csv('train.csv')
pdp.ProfileReport(df)
profile = pdp.ProfileReport(df)
profile.to_file(outputfile="outputfile.html")

を一行ずつ入力
すると

f:id:aiukao:20180503162849p:plain

 

こんなページが出来上がります。

一昔前にはこんだけのプログラムでこんなグラフィカルなものが出来上がるなんて
考えられなかったな。こうなってくると学んでいくのも面白いですよね。