【データ分析の練習に】オープンデータを取得できるサイト8選
はじめに
現在筆者はPythonを使ったデータサイエンスを学んでいるのですが、手元にデータがなくて困ることが多々あります。そこでオープンデータというものが有用になります。Open Definitionによると「オープンなデータやコンテンツは、目的を問わず誰でも自由に利用・変更・共有できるもの」とされており、今回のようにデータ分析などに使う時にも有用です。
参考にしたサイト
今回オープンデータを提供するサイトの中から、自分が実際に使いやすいサイトを中心に一覧を作成しました。作成にあたっては、以下のサイトを参考にしました。
【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう!
練習用分析データが無ければ、オープンデータを使えばいいじゃない!
オープンデータを取得できるサイト
総務省行政管理局が運用するオープンデータ情報ポータルサイト。各府省の保有データをオープンデータとして利用できるような「データカタログサイト」になっています。
国立情報学研究所のデータセット共同利用研究開発センター(DSC)が運営するデータセットの共同利用事業。各種のデータセットを民間企業や大学等研究者から受け入れて研究者に提供するためのサービスを行っています。楽天やYahoo!といった民間企業のデータセットもあります。
企業や政府などの組織とデータ分析のプロであるデータサイエンティスト/機械学習エンジニアを繋げるプラットフォーム。コンペを行い、上位入賞者は優秀な分析データと引き換えに賞金が発生します。過去のコンペなどのデータセットもダウンロードできます。タイタニックのデータなどが有名ですね。僕も以前受講したGCIのコンペで使用しました。
政府統計のポータルサイト。国勢調査などのデータも取得が可能です。jSTAT MAPという地図で見る統計も利用でき、地図上に統計情報を表示できたりします。
Googleによるデータセットの検索サイト。フィルター機能を使って、色々条件を絞って検索できるようです。
kaggleの日本版のようなサイトで、コンペが実施されています。kaggleと比較すると開催されているコンペも少ないですが、日本語のサイトなのでアクセスしやすいかもしれません。
米国におけるヘルスケアや医療機器、メンタルヘルスや薬物など広い範囲での健康についてのデータセットが検索可能。
厚生労働省による保健や医療、福祉に関するデータの提供を行っています。
- 【おまけ】BASEBALL REFERENCE
最後は完全に自分のために。古今東西の野球チームの成績データがあります。MLBだけでなくNPBのデータも置いています。ただ、データセットをダウンロードできるわけではないので、データを取得するには色々と工夫が必要なようです。コチラやコチラのサイトを参考にさせていただきます。
おわりに
これら紹介したオープンデータの利用に関しては、リンク先の利用規約に則って行ってください。
また、どのデータに関しても、活用していくときには前処理が重要になってきます。前処理に関しても、今後まとめて行ければと思っています。
コメント