読者です 読者をやめる 読者になる 読者になる

どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

NHKの番組タイトルを解析してみた話

NHKの番組タイトルを解析する

NHKの番組タイトルから、世の中の動向が垣間みれるのではないかと思ったので、やってみることにした

NHK番組表APIサービスとは

NHKでは、番組表のデータをAPIApplication Programming Interface)で提供します。 番組表APIは、全国のNHKの放送番組のタイトルや放送時間などの番組情報を提供するものです。

  • なぜ、今まで、存在していなかったのかというくらいに欲しかった情報のAPI
    • JSONで返してくれる
    • NHK・教育・BSなどの番組情報を取得できる
      • 現在放送中の番組タイトル一覧や、今日の番組タイトル一覧、詳細内容等を取得可能

動機

  • インターネッツSNSの方がリアルタイムに世論や世の中の動きをつかめるが、マスコミの中での動きや動向も影響力が落ちているとはいえ、重要な情報であると思うし、

  • マスコミが流行っていると思う事柄・流行らせたい事柄、マスコミが注目している事柄を把握できるのではないかと思い、分析してみようと思った。

コードと対象データ

  • 2014/1/29から3/9までのデータ(2月後半をのぞく)
    • けど、2月後半はAPIをたたき忘れて、データをとれてませんでした
      • ご愛嬌ということで
  • 今回もRでゴリゴリとやりました
    • pythonとかを使おうかと思ったけども、やっぱRが便利なんですよねー
  • めっちゃ汚いコードだけど、Githubにあげました

やったこと

全然、統計処理はかけてないし、方法としてもザルだらけだが、とりあえず、下記のようにやってみた。

  1. APIをたたいて、番組の一覧を取得する
  2. RMeCabを使って、形態素解析に書けて、日付と単語のdocmatrixを作成する
    • デフォルトの辞書で何もしてません。。。
  3. 適当にデータのクレンジング
    • 記号とか数字の除去
  4. 単語の合計・最大・最小・平均・最大・最大と最小の差を算出
  5. 最大と最小の差について降順ソートして50件抽出
    • これによって、突出して出てきた単語の抽出ができる
    • オリンピックとか、イベントや流行的なもの
    • 平均と最小の方が妥当かもしれない・・・
  6. 平均についてソートして50件抽出
    • これによって、平均的にでるであろう単語の抽出ができる
    • ニュースとか、毎日でるもの
  7. 5と6の差集合を取得
    • 5で抽出された単語から平均的に多い単語をのぞく

結果

5の結果

  • 2014/1/29から3/9までにタイトルに含まれていることが突然多くなったと思われる単語

          [1] "する"           "基礎"           "NHK"         "ソチ"           "応援"          
          [6] "五輪"           "全力"           "オリンピック"   "きょう"         "回"            
          [11] "情報"           "いる"           "英語"           "日本"           "ニュース"      
          [16] "パラリンピック" "気象"           "中継"           "放送"           "min"        
          [21] "あそぶ"         "ごと"           "見る"           "世界"           "年"            
          [26] "悩み"           "~「"           "フィギュア"     "ボックス"       "バナナ"        
          [31] "講座"           "編"             "TV"           "ケース"         "さん"          
          [36] "ちる"           "テレビ"         "みんな"         "委員"           "休止"          
          [41] "金メダル"       "健康"           "私"             "人"             "伝える"        
          [46] "料理"           "れる"           "選"             "復興"           "女子"   
    
  • もう一段階、処理があるので、詳しくは、下で触れます。

6の結果

  • 2014/1/29から3/9までに平均的にタイトルに含まれていることが多い単語TOP50

           [1] "ニュース"     "NHK"       "情報"         "ソチ"         "日本"         "する"        
           [7] "気象"         "テレビ"       "いる"         "アニメ"       "きょう"       "オリンピック"
          [13] "英語"         "さん"         "基礎"         "世界"         "放送"         "みんな"      
          [19] "応援"         "中継"         "全力"         "回"           "あそぶ"       "料理"        
          [25] "講座"         "休止"         "手話"         "五輪"         "プレマップ"   "うた"        
          [31] "課"           "ごちそう"     "私"           "TV"         "ちる"         "シリーズ"    
          [37] "高校"         "ごと"         "女子"         "かっぱ"       "連続"         "委員"        
          [43] "健康"         "趣味"         "花"           "~「"         "圏"           "首都"        
          [49] "編"           "はな"        
    
  • やはりニュースとか、情報とかはおおいですね

  • ソチオリンピックも比較的長期間にわたって宣伝・中継がされていたので、ここに入ってきても妥当でしょう
  • 今期の連続テレビ小説の「ごちそうさん」もちゃんと入ってきてます

5に含まれていて、6に含まれていないものを抽出

  • 2014/1/29から3/9までにタイトルに含まれていることが突然多くなったと思われる単語TOP50の中で、
  • 平均的にタイトルに含まれていることが多い単語をのぞいたもの

      パラリンピック
      min
      見る
      年
      悩み
      フィギュア
      ボックス
      バナナ
      ケース
      金メダル
      人
      伝える
      れる
      選
    
  • オリンピックが終わって、パラリンピックが始まったということでしょうか

  • フィギュアスケートはソチ終盤にありましたしね
  • 金メダルってのは、総集編とかで出てきた単語かな?
  • バナナってなに?w

考察と課題

  • なんとなーくは、流行の単語を追えていそう
  • 課題と思っていること
    • 統計処理を全くかけていないので、統計的に有意な差なのかがわからない
      • χ2乗検定とか、t検定とかになるのかな
    • 形態素解析の辞書
      • やっぱデフォルトだと厳しいですな
    • NHKは再放送が多いので、同一タイトルが2重カウントされている
      • 再放送ということは、重要度が高い番組だからいいのか?
    • タイトルしかとれないということ
      • 重大ニュースは、ニュース7としてまとめられてしまう可能性がある
      • タイトルに食い込んでくる/枠を抑えられるぐらいのことしかデータとしてのってこない

Rのコードについて

  • データフレームをfor文処理したいときに、apply関数を使うとRっぽい
    • 業務で触る言語がほぼfor文だから、なかなか、ぱっとapplyが出てこないんだよな
  • ベクトルの差集合と和集合
    • 平均と差の和集合を取得 intersect(diff.v ,mean.v)
    • 平均と差の差集合を取得 is.element(diff.v , mean.v)

      • 私は、すぐにデータフレームに突っ込んでしまうので、それをやめて、ベクトルでごにょごにょする方法も押さえたいところ