kaggleに挑戦：タイタニック

kaggleのチュートリアル的な立ち位置のタイタニック号の生存率の予測に挑戦しました。

Google colabを用いて、実際の分析をしました。しかし、NumpyやPandasを一時期勉強をしたとはいえ、何からやればいいのか全くわからないので、以下のサイトを参考にしました。むしろ、ここにあるサンプルコードを丸パクリしました。

【Kaggle初心者入門編】タイタニック号で生き残るのは誰？

実際にこのような形でやっています。コーディングの分かるところは分かるのですが、わけわからないコードもあったので、その時にはGeminiに訪ねました。

実際に使ったcolabがこのようなものです。自分用のメモとかがあってお見苦しいですが、こんな風にやったんだなと感じてください。

https://colab.research.google.com/drive/1YJclHLq_UVy80jljupuaxtEOEaCpXP_S?usp=sharing

今回採用した分析手法は決定木というものです。正直どのような分析か分からないのでGeminiに聞いてみました。

Gemini引用
データ分析における「決定木（Decision Tree）」とは、分類（classification）や回帰（regression）の問題を解決するために用いられる、木構造のモデルです。データの特徴量（説明変数）に基づいて、一連のルールを学習し、最終的に予測を行います。
その構造が樹木に似ていることから「決定木」と呼ばれます。木の根から始まり、内部のノードで特徴量に基づく分岐が行われ、最終的に葉（リーフ）と呼ばれるノードで予測結果が得られます。

高校生にもわかりやすく説明させる

ある質問に「はい」「いいえ」で答えていくことで、最終的にYes/No（合格/不合格、買う/買わないなど）や数値（テストの点数、商品の値段など）を予測する木の形をした図のことだよ。

何となく分かるようなわからないような、ふわふわしてます。正直、ふわふわした状態で分析をしても何がすごいのか分からないです。計量経済学をきちんと勉強せずに回帰分析をエクセルでやることが危険だという人の気持ちが分かりました。

感想は置いておきまして、実際にコンペにデータを提出しました。まずは4つの説明変数で決定木をしています。

7つの説明変数で決定木をしました。

精度が71%から75%へと少し上がりました。説明変数をいい感じに加えることで精度が上がりました。

kaggleの流れがなんとなく分かったので、これからは決定木などの分析手法の理論を勉強したり、Pythonを勉強していきたいです。