【機械学習】Kaggle演習〜Titanic : Machine Learning from Disaster〜
本日はKaggleの演習として初心者向けのTitanic : Machine Learning from Disasterに取り組んでみたい。
Kaggleは何から初めていいのかわからないけど、とりあえず演習することで必要な物を随時身につけていくスタイルで進めて行きたい。
まずは英語読解・・・
Kaggleは英語になっているので、まずは英語の読解から。
英語の勉強も兼ねてで一石二鳥または二兎追うものは一兎も得ずのどちらか。
早速、be to構文でつまづく。
be to構文の3つの意味
1,可能
be to V 「Vできる」と訳しcanと一緒
2,予定
be to V 「Vする予定」
3,義務
be to V 「Vしなければならない」
あとわからない単語を調べるためにChromeの拡張機能を導入。
Google Dictionary (by Google)
単語をダブルクリックすると英英辞書的に英単語を英語で説明してくれる
iKnow! ポップアップ辞書
単語にマウスオーバーすると英日辞書的に英単語を日本語で訳してくれる
演習スキル(Practice Skills)
- Binary classification
- Python and R basics
目的(GOAL)
- PassengerId (sorted in any order)
- Survived (contains your binary predictions: 1 for survived, 0 for deceased)
使用データ(DATA)
- training set (train.csv)
- test set (test.csv)
手順
上記ダウンロードしたデータをpythonに取り込む。pandasとnumpyのimportを忘れずに。
import pandas as pd import numpy as np train = pd.read_csv("ファイルパス") test = pd.read_csv("ファイルパス")
ファイルパスのコピーは「⌘+option+C」
取り込んだデータの確認。
実際のビジネスではローデータのデータクレンジングにかなりの時間がかかるが、提供データではすんなり読み込み完了。
行数列数の確認
test_shape = test.shape train_shape = train.shape print(test_shape) print(train_shape)
(891, 12)
(418, 11)
trainが12 行、testが11行でtrainにはSurvivedが含まれる。
trainのSurvived情報からtestにSurvived情報を加えるのが今回の演習。
長くなったので、次回へ続く