IT業務効率化

kaggleは誰にでもできるから、まずはじめてみよう!

kaggle 入門

なぜこの記事を書いたのか?

皆様がこの記事を読むべきか判断するために、僭越ながら私の自己紹介をさせてください。

  • 今は社会人3年目で、某IT企業の運用をしています。IT分野に飛び込んだのは社会人になってからで、まだ特化したスキルがなく悩んでおります。
  • メインの言語はPythonです。某大学の応用物理学科を卒業し、統計学や線形代数は一通り修了しました。そのため、機械学習系を学んでいく基礎が揃っていると思い、今後データ分析家の道に足を進めたいと考えております。
  • 機械学習系はPRMLを読んで心が折れそうになった程度。sklearnなど、多分100行しか書いたことない程度。
という筆者でございます。

この記事は、このレベルの人がkaggleにビクビクしていたけど、やってみたら超簡単だった。」という話です。

また、コードの話はしません。その辺りは探せばいくつも記事があるので、「kaggle 入門」で検索してください。

わたしも今回こちらの記事にお世話になりました。

【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

kaggleって何か怖い

僕に予測なんてできるのか?ていうか提出とか判定とかどういう仕組みなんだろうか?

予測なんてできるのか?

こっちは勉強が必要です!

ただし、最初は誰かのコードをコピーするだけでいいです!合計20行くらいのコードで書けます。

提出とか判定とかどういう仕組みなんだろう?

絵にしてみました。

kaggle 始めてみた

取得するデータの形式、提出するデータについては色々ありますが、以下のフローはkaggleからデータを取得して投稿するまでの一例です。

  1. kaggleから教師データとテストデータをcsvで貰う。
  2. 予測をする。(PythonやR、ここは奥が深く難しいが最初は誰かの丸コピしよう)
  3. 予測して欲しいデータに合わせてcsvデータを作る。
  4. kaggleにアップロードする。
  5. あとは勝手にスコアリングと順位づけをしてくれる。(すぐです!)

これだけです。

具体例:タイタニック号

下のページのデータをもとに具体例を話します。

Titanic: Machine Learning from Disaster

タイタニックのデータは、kaggleがチュートリアルとして用意してあるデータです。データ量も少なく、低スペックなPCでも扱えます。

このタイタニック号のデータでは、

  1. クラス(ビジネスクラス、ファーストクラス的な)
  2. 名前
  3. 性別
  4. 年齢
  5. 同乗した兄弟・配偶者の人数
  6. 同乗した親子の人数
  7. チケット番号
  8. チケット料金
  9. 部屋番号
  10. どの港で乗船したか

という10の項目と合わせて、「生き残ったか」という情報が、891人分あります。

そしてもう一方、418人分の10の項目データがあります。そしてこの418人が生き残れるか?という予測をしてくれというお題が与えられます。

10項目のどのデータを利用するかもあなた次第です。例えばチケット料金の高い人はお金持ちだから高待遇を受けられたかもしれない、という理由でそのデータを「生き残ったか」という判定用いることも選べます。

私はこれから勉強の身なので、詳しく書けませんが・・・どのようなアルゴリズム・モデルを使うかもあなた次第です。

終わりに

お読みいただきどうもありがとうございました!

kaggleにいつデビューしようか悩んでは、小難しそうな英語の画面から逃げていました。

でもやってみると全然簡単です。その簡単さたるやtwitterみたいなもんです。

ゼロから始めるディープラーニングを買って、勉強を始めようかと思ったのですが、kaggleのように評価・採点してくれる場所があるということが、今後の学習を継続していく力になると思いますぜひ始めてください!

(※誤解のない様にお伝えしておきますが、精度の高いモデルを作ることや、機械学習のライブラリを使いこなすことは簡単ではないです。)

kaggle仲間、データ分析仲間が増え、共にいいものを作っていけると嬉しいです。今後よろしくお願いします。

ABOUT ME
hirayuki
今年で社会人3年目になります。 日々体当たりで仕事を覚えています。 テーマはIT・教育です。 少しでも技術に親しんでもらえるよう、noteで4コマ漫画も書いています。 https://note.mu/hirayuki