裸で独りぼっち

マジの日記

Kaggleへの道【1】タイタニックコンペ-②

とりあえず本を20pくらいまで読んだ。

データセットは3つ。

ダウンロードした。

テストデータとトレーニングデータ。

テストデータをもとに予想するということだ。

データは軽いので出先でもできるのがうれしいところ。

 

過学習とは何かについて調べるべきかもしれない。

 

過学習(過適合)」とは、学習(訓練)データにあまりに適合しすぎて、学習(訓練)データでは正解率が高いのに学習(訓練)データとは異なるデータ(例えば、評価データ)では正解率が低くなってしまう、つまり、学習(訓練)データだけに最適化されてしまって汎用性がない状態に陥ることです。

 参考:AIが学習しすぎる?「過学習」問題とそれを抑制する方法