どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

競泳、日本選手権のデータをtableauで可視化してみた

スポーツとデータサイエンス

先週の月曜日、SAS FORUM2016でオールブラックスのデータサイエンティストの方が公演をなさっていたのを聞いた。

sasforum.jp

ラグビーと傷害についての話。データサイエンスの力によって、ラグビープレーでの傷害を減らした事例を聞いたのだが、とても良かった。

tableauも下記のように、スポーツでの使用例を公開していたりしている。 その他にも、野球・サッカー・バスケ・アメフトなど、様々なスポーツでデータサイエンティストが活躍しているようである。

www.tableau.com

スポーツのデータで何か分析やってみたいなーと思ったけれど、スポーツでのデータサイエンティスにおいても、ビジネスでのデータサイエンティス同様、当然、ドメイン知識が必要となってくる。私は、野球とかサッカーでは戦術をまったく知らないので、面白い考察ができないなと・・・。

けど、競泳であれば、大学まで割とガチにやってきたので、競泳のドメイン知識もあるし、なんとなくできるかもしれないなと思って、競泳のデータを探してみた。

競泳のSTATS DATAが公開されている!

www.swim.or.jp

 科学委員会では、競泳の主要全国大会においてレース分析を実施しています。レースを ビデオ撮影し、その映像からスタート、ターンなどの所要時間やストローク局面における泳速度、ストロ ークタイムおよびストローク長などのレース情報を提供します。これらの 情報は、練習の評価や今後の課題の設定(目標の設定やトレーニング計画)、あるいは選手 の特徴把握等に有用な資料としてご活用頂けます。

今回調べてみて、初めて知ったけれども、競泳のデータが公開されていた。 PDFで公開されているので、プログラムではとても扱いにくいけれども、とても楽しい。現状で、水泳のメジャーなスタッツデータの一覧がどのようなものかも分かるし、どのようにして計測しているのかの定義も書かれているので、とても参考になりそう。たとえば、自分自身でレースをビデオ撮影して、計測すればトップ選手との違いも分析することができるはず。

おそらく画像認識とかで自動算出したものではなく、人手でカウントしたものだとうは思う。水泳は時間が短いし、カメラアングルも一定に保てるし、選手の交錯などもないので画像認識で自動算出も夢ではないかもしれない。

tableauで可視化してみた

上記のサイトから、2012年から2016年までのデータ(リアクションタイムについては、2016年のデータが見つからなかったので、対象外)を集めた。上記のサイトで公開されているPDFから、手動で抜き出して、CSVとしてまとめ、tableauに食べさせた。

PDFからテーブルを抜き出すことができるtabulaも使ってみたが、あんまりイイ感じにならなかったので、結局、手動でやることになってしまった・・・。

手動での作業に心が折れてしまったので、200m自由形と、リアクションタイムしかまとめられなかった。やっぱり、データを公開するときは、PDFでなくCSVにして欲しい。切実に。

そして、tableau publicにはじめてあげてみました。 統計分析をしていない、見た目だけの分析だけれどもやってみた。

200m自由形分析

  • 競泳では、決勝では、予選のタイムが速い人がほど中心のコース(4コース)を泳ぐことになる。どのくらい番狂わせがあるのか?外側のコースの人が前半から突っ込んでいくのか?ということをみたい
    • 番狂わせはあまり起きていないらしい。
    • 8コースは最初から飛ばして、突っ込んでいる傾向があるっぽい
  • ターンがうまい人はだれか?
    • 萩野選手、松田選手、小堀選手がはやい
    • →バタフライとか、ドルフィンが上手い選手は、ターン15mのタイムがはやいっぽい?
  • リアクションタイムが速い=15mまでのタイムが速いということなのか?
    • なんとなく、相関しているように見える
    • けれど、スタートのリアクションが0.6切っていても、15mまででみると早くないこともある
    • ただ、逆に、リアクションが0.7を超えるようになると、15mまでのタイムはほぼ遅くなっている
    • →リアクション0.7までに抑える中で、理想なスタイルを見つけるのが大事ということか。
  • オリンピック代表選考会を兼ねる日本選手権では、普段と傾向がかわるのか?無茶を承知で突っ込むことがおおいのか?
    • オリンピック代表選考会を兼ねる日本選手権が2回しかないので、データが足りないけれども。。
    • オリンピック代表選考会を兼ねる日本選手権のほうが、前半から突っ込んでいる気がする??

スタート:リアクション分析

  • 平泳ぎの人の方がリアクションが遅い、距離が長いほうがリアクションが遅いという印象をずっと持っていたので、その印象があっているのかどうかを可視化してみた。あくまでも可視化だけで、統計検定をかけていないが、下記のような感じになった。
    • 100バタフライが最速
    • 距離、種目によって、大きな差はない
    • 100平泳ぎが一番分散が少ない
      • 平泳ぎが遅いイメージは、突出して速い人がいないということなのか??
      • それが原因で遅いイメージがついた?

感想

あと、競泳に関しては、試合のときの分析もそうだけれども、練習のときのデータ分析の方が価値がある気がした。たとえば、耐乳酸トレーニングのときの1本ごとの乳酸値、心拍数、タイム・ストローク数を計測するとか。

(そういえば、耐乳酸の練習のときに、自分で1本ごとに、タイムを紙に書いていた記憶が蘇ってきた。あのデータとか、全然活かされてなかったなー・・・)

さらにいえば、トレーニングももっと科学的になれると思う。昔、小さいときに、練習中のタイムが遅いとよく怒られたが、調子がわるいときはどんなに頑張っていてもタイムはでないと思う。「50mハードをxx秒で泳いでいるから良い練習ができている」というようなタイム中心ではなく、「50mハードを心拍xxで、xx秒で泳いでいるから良い練習ができている」というようにバイタルデータ中心になってもいいんじゃないかなと。

いずれにせよ、こういうデータは、「何のために測定して、何に活用するのか」を意識しないと、データを取って・可視化して終わりになってしまうなーと改めて思いました。

おまけ:水泳と活動量計

水泳のログをとるガジェットは日本ではあまり見かけないので、簡単に手に入りそうなものは、POLAR(ポラール) V800 とか、MISFIT (ミスフィット) Speedo Shine とかがありそう。

MISFITシリーズはMISFIT Shineはつけて泳いでみたことがあるが全然トラッキングしてくれなかったんだよなー。MISFIT (ミスフィット) Speedo Shine は、あのSpeedoの名前が入っているから、それなりの精度がでそうだなと思うから、買ってみようかなー。