【機械学習】Kaggle演習〜Titanic : Machine Learning from Disaster〜3
前回、前々回でデータの取り込みとクレンジングが完了
ここからは決定木(Decision Tree)で予測モデルを作成。
決定木(Decision Tree)
決定木とは木のように分類・回帰を行う機械学習の手法の一つ。
Pythonライブラリのscikit-learn(サイキット・ラーン)を使用。
生存に関係ある「Pclass」「Sex」「Age」「Fare」でモデル作成。
「Name」:名前、「SibSp」:兄弟・配偶者の同乗者、「Parch」:親・子供の同乗者、「Ticket」:チケット番号、「Cabin」:客室番号、「Embarked」:出港地は関係ないので無視。
もしかしたら「SibSp」「Parch」「Embarked」も関係してくるかもだけど、インパクトはあまりないと思われる。
from sklearn import tree target = train["Survived"].values features_one = train[["Pclass", "Sex", "Age", "Fare"]].values my_tree_one = tree.DecisionTreeClassifier() my_tree_one = my_tree_one.fit(features_one, target) test_features = test[["Pclass", "Sex", "Age", "Fare"]].values my_prediction = my_tree_one.predict(test_features) my_prediction.shape print(my_prediction)
これで予測モデルデータ完了。