Kaggle入門としてTitanicコンペを取り扱った記事は多くあり入門までは問題なく出来ると思うのですが、そのあと何をすればいいのかわからなくなくなりました(汗)。いろんなコンペがあったりして一体どれに手をつけたらよいのか判断がつきませんでした。
Qiitaを読んでますと「House Prices」もKaggleチュートリアルとして有名だそうなのでこれもやってみました。こちらも日本語の解説記事が豊富で真似しながらSubmitすることができました。ざっくり以下の流れ。
- 各特徴量のデータ型を調べる。
- カテゴリを表す特徴量を整数に変換(Label Encoder)
- 欠損値を確認。多い特徴量は削除。少ないのは中央値に。
- 似た特徴量をまとめた新しい特徴量を作成
- 各特徴量の重要度を調べる(Feature Importances)
- 上位30位と上位2件掛合せた特徴量を使用。偏差値に変換。
- 各特徴量と目的変数の散布図を確認。外れ値を削除。
- XGBoost, Neural Network, SVRでモデル作成・予測
- 予測結果を特徴量とした線形モデルでアンサンブル
TitanicとHouse Pricesは「Getting Started」という入門向けに分類されるコンペで、次は「Playground」という競技一歩手前の楽しさにフォーカスを当てたコンペより「Bike Sharing Demand」をやってみました。参加チームが多かったので情報も多かろうと。
Notebooksよりbeginnerで検索してVoteの多いものを参考にしました。特徴量が少なくデータ件数が多い、欠損値の無いデータセットでした。書ききれませんが大体流れは同じで、可視化を駆使して特徴量を調べたり、特徴量エンジニアリングを行ったりした後、複数モデル作成して予測。最もよいものを採用(今回はアンサンブルなし)。
beginner向けのNotebookを終えたら、上位10%と書かれたVoteの多いNotebookがありましたので確認。beginnerを見た後だからか割と理解でき、500位くらいになりました。
beginner向けのNotebookを終えたら、上位10%と書かれたVoteの多いNotebookがありましたので確認。beginnerを見た後だからか割と理解でき、500位くらいになりました。
あと何個かPlaygroundのコンペをやったら「Featured」という主要なコンペに手を出してみようかなと思います。実はHouse Pricesの後に見てみたのですが情報量が多くて断念しました。実力のある方は早々に主要コンペに参加されるといいんじゃないかなと思います。
0 件のコメント:
コメントを投稿