Kaggleデビュー 〜タイタニック号生存者予測〜

2020年6月21日日曜日

技術 仕事

Kaggleデビューしました。「タイタニック号の生存者予測」を通してNotebookの使い方、submitして順位表に載る一連の流れについて雰囲気つかみました。

Notebookにてプログラムを組んでinput(乗客の情報)を元にoutput(生存or死亡)のcsvファイルを作成してsubmit(提出)。予測性能がスコアとして評価され順位表に載ります。

人のNotebookのコピペですが以下の内容を実施してsubmitした結果、スコア0.78468で順位7200位くらいに名前が載りました。ソシャゲやってるみたい。

●探索的データ分析:
 乗客情報を可視化、分析

●特徴量エンジニアリング:
 機械学習アルゴリズムが扱える有用な形に情報を加工

●学習・予測:
 ロジスティック回帰, ランダムフォレスト, LightGBMなどの機械学習アルゴリズムを試す。機械学習のパラメータを調整したり(Optuna), テストデータをトレーニング用・検証用に分けて性能を見積もったり(ホールドアウト検証/Cross Validation)

●アンサンブル:
 複数の機械学習アルゴリズムの予測結果を多数決でまとめる。

最近Kaggleのページレイアウトが変わったのかsubmitのやり方が説明と合わず、一番苦戦しました。。。

ブログ内検索

自己紹介

自分の写真
特にやることもなく1日を過ごし、パソコンに向かってとりとめの無いことをぼんやり書いてると気ちがいじみた心地がするね。

ブログ アーカイブ

ラベル

メッセージはこちら

ブログランキング

ブログランキング・にほんブログ村へ

Google Website Translator


QooQ