【pythonトレーニング】pandas 10年前には考えられなかったな・・・
この記事を見て触発されました。
機械学習をする際にまずは必要となるデータセットを探してくる。
この記事で紹介しているのは
Kaggle: Your Home for Data Science
というサイト
こちらのサイトでは様々なデータをセットを収集分析しているコミュニティです。
ここで有名なTitanic : Machine Learning from Disasterのデータセットを使おうということで名前が挙がっています。
こちらは映画にもあるタイタニック号の乗客などのデータになっています。
詳しくは下記を参照
Titanic: Machine Learning f
これでデータは手に入りました。
次にpythonの準備ですが
こちらは
udemyで済ませていますので、詳しい方法はほか記事をご参照ください。
最初にpycharmのコンソールではない方で試したのですが失敗。
ちょっとその原因はまだわかっていません。
コンソールで
pip install pandas-profiling
(pandasに関しては以前インストール済み)
import pandas as pd
import pandas_profiling as pdp
df = pd.read_csv('train.csv')
pdp.ProfileReport(df)
profile = pdp.ProfileReport(df)
profile.to_file(outputfile="outputfile.html")
を一行ずつ入力
すると
こんなページが出来上がります。
一昔前にはこんだけのプログラムでこんなグラフィカルなものが出来上がるなんて
考えられなかったな。こうなってくると学んでいくのも面白いですよね。