タイタニック号の生存予測

分析の概要

1912年4月14日に沈没した豪華客船のタイタニック号
事故の調査結果から、乗客の一部のグループの生存確率が、他の乗客よりも高かったことが分かっています。
名前、年齢、性別を始めとする乗客のデータを元に、機械学習を使いどのような乗客の生存確率が高かったかを予測して頂きます。
機械学習を使ってタイタニック号の生存予測をするテーマは、機械学習初心者が取り組むテーマとしてよく活用されています。
そのため、ウェブ記事や本などの多くあり、機械学習の第一歩目のテーマとして適切だと思い取り上げました。

データセット

訓練用データはこちら
検証用データはこちら
提出用データはこちら

※保存方法
Mac:右クリック⇒「リンク先を別名で保存」
Windows:右クリック⇒「名前を付けてリンク先を保存」

データセットのカラム説明

カラム名説明
IDインデックスとして使用
survived生還結果(1=生還, 0=死亡)
pclass客室のクラス(1,2,3の順に高級クラス)
sex性別
age年齢
sibsp乗船していた兄弟、配偶者の数
parch乗船していた両親、子供の数
fare運賃
embarked乗船した港(S, C, Q)

サンプルコード

サンプルコードはこちら
サンプルコード(詳細版)はこちら

評価方法

・評価方法は、「AUC」を使用してください。
・評価値は0~1の間をとり、精度が高いほど大きな値となります。

【参考】
PythonのAUC実装方法(sklearn公式ページ)
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html

提出フォーム

提出フォームはこちら