Kaggleデビューしました。「タイタニック号の生存者予測」を通してNotebookの使い方、submitして順位表に載る一連の流れについて雰囲気つかみました。
Notebookにてプログラムを組んでinput(乗客の情報)を元にoutput(生存or死亡)のcsvファイルを作成してsubmit(提出)。予測性能がスコアとして評価され順位表に載ります。
人のNotebookのコピペですが以下の内容を実施してsubmitした結果、スコア0.78468で順位7200位くらいに名前が載りました。ソシャゲやってるみたい。
●探索的データ分析:
乗客情報を可視化、分析
●特徴量エンジニアリング:
機械学習アルゴリズムが扱える有用な形に情報を加工
●学習・予測:
ロジスティック回帰, ランダムフォレスト, LightGBMなどの機械学習アルゴリズムを試す。機械学習のパラメータを調整したり(Optuna), テストデータをトレーニング用・検証用に分けて性能を見積もったり(ホールドアウト検証/Cross Validation)
●アンサンブル:
複数の機械学習アルゴリズムの予測結果を多数決でまとめる。
最近Kaggleのページレイアウトが変わったのかsubmitのやり方が説明と合わず、一番苦戦しました。。。
0 件のコメント:
コメントを投稿