タイガースとジャイアンツが含まれるツイート件数をカウントしてみた
データ取得期間
2018/11/11 - 11/13 内の数時間
データ取得方法
集計ログ
取得した総ツイート件数
scala> val rawData = sc.textFile("タイガース_ジャイアンツ.txt") rawData: org.apache.spark.rdd.RDD[String] = タイガース_ジャイアンツ.txt MapPartitionsRDD[19] at textFile at <console>:27 scala> rawData.count res24: Long = 1650
ツイートにタイガースが含まれる件数
scala> def isTigers(line: String): Boolean = line.contains("タイガース") isTigers: (line: String)Boolean scala> rawData.filter(isTigers).count res25: Long = 551
ツイートにジャイアンツが含まれる件数
scala> def isGiants(line: String): Boolean = line.contains("ジャイアンツ") isGiants: (line: String)Boolean scala> rawData.filter(isGiants).count res26: Long = 1196
1つのツイートにタイガースとジャイアンツの両方が含まれているものもある。
しかし、ジャイアンツが含まれているツイート数がタイガースよりも、およそ2倍という結果に。
ツイートに矢野監督が含まれる件数
scala> def isYano(line: String) = line.contains("矢野監督") isYano: (line: String)Boolean scala> rawData.filter(isYano).count res30: Long = 5
ツイートに原監督が含まれる件数
scala> def isHara(line: String) = line.contains("原監督") isHara: (line: String)Boolean scala> rawData.filter(isHara).count res31: Long = 11
もちろん、これだけで世間の注目度を示しているわけではないし、集計期間や集計方法にも問題がたくさんあると思いますが、それにしても思っていた以上に数値に差が出る結果となりました。
もう少しサンプルデータを増やした上で、別の角度からも集計をしてみたい。