Twitterのつぶやきを統計的に分析してみるその１

- 8月

2017

Posted By : boomin

No Comments

Twitterのつぶやきを統計的に分析してみるその１

はじめに

Twitterのつぶやきを感情分析してみるシリーズ第３弾。

・・・・のつもりでしたが、感情分析から離れて行ってしまったので、仕切り直し。

第1弾では、教師データや評価対象データの準備まで行った。
第2弾では、実際に感情分析を行い、その時系列変化を可視化した。

今回は、統計的な処理と可視化を行ってみることにします。
最近聞かなくなりましたが、つぶやきビッグデータを使い倒してみようと思います。

前提

第1弾と第2弾での処理が完了し、分析用のデータが手元にあること。

クレンジング（正規化）
形態素解析
品詞フィルタリング
ストップワード除去

本当は、ここで使用したデータもすべて一緒に公開していろんな人に同じ検証をしてほしいのだけど、
公開されている（鍵付きではない）アカウントとはいえど、自分のつぶやきだけじゃないので、
データそのものの公開は控えることにします。

統計処理と可視化の内容（予定）

今回は、以下のような分析と可視化を行ってみることにします。

よく使用される単語ヒストグラム
word cloud
単語間の類似度
アカウント間のつぶやき内容の類似度

単なる統計量の可視化で、分析とは言えないレベルなのは重々承知。
が、そもそも、テキストマイニングで定量的評価を行うだけで興味深い点があると思います。

早速、可視化してみる

では早速。

ちなみに可視化対象は、筆者が興味のある、個人的に知ってるアカウント となります。
ので、一部の人たちは面白いかもしれないが、そうでない人は、かなりつまらないと思う。

ただ、データサイエンティストのテイストで、分析をしてみましょう。
真面目にはやりませんが。

1. よく使用される単語

正規化、形態素解析、品詞フィルタリング、ストップワード除外などのクレンジングを経て、
よく使われる単語のランキングtop50を図示してみました。

1.1 M関連クラスタ

M関連クラスタとは、知ってる人だけに通じる言葉なので、わからない人はご容赦願いたい。

boomin614	yutokiku

shimasho	katami_36

karen529mm	erk_vnandpf

achamatsu	H_H

yutokiku氏 のラーメンが期待通り過ぎ！あとは、出没する場所とか感想に関連する言葉が並びますね。

karen529mm氏 は、LIVEで楽しい毎日を過ごしていることが、伝わってきます。

shimasho氏 夏休み子ども科学電話相談の影響なのはわかっているのですが。女子て。

boomin614 日本とか女性とか、なんなんだ。うんちょっと身に覚えがある。

1.2 T関連クラスタ

shin_kosa	iwasaki_p

iwasaki_p氏 は、東京―広島間を新幹線で移動して、あとはビール飲んで温泉かお風呂に入っているようだ。
うん、だいたいあってる。

shin_kosa氏 は、つくば市が行動の中心で、ビールと温泉と日本酒の生活のようだ。
うん、これもだいたいあってる気がする。

1.3 N関連クラスタ

toosee_spidy	PRpha

toosee_spidy氏 の撮影wwwwwww　デレステとナナシスのイベントでカメラ撮影しているみたいだ。まんまやん！

PRpha氏 は寄生獣。うんそうだよね。

1.4 小まとめ

このように見るだけでも面白いのですが。
データサイエンティストだとしたら、ここから統計的な意味を見出していくのです。

詳しいことは省きますが、、、、、
このグラフから、片対数グラフにすると、勾配がほぼ直線に近似できると予測できることから、
エルボー図を利用した対象の絞り込みが、一般的かなとも思います。

また、スケールもアカウントごとにバラバラです。そこで

スケールを揃える
縦軸を対数にする
さらに、gridを入れる

ことで、非常に見やすい、そして比較できるグラフとなります。

ここから、勾配を直線近似して、傾向が直線から外れる左側の領域が、
値に注目すべき単語であると定量的にみなせます。

さらに一歩進めて、このグラフの赤い破線の傾きや切片も、もっと対象のデータを同様に処理して
つぶやきの内容と関連付ければ、意味を持ってくるでしょう。

こういう配慮を自然とできるようになるのが、データサイエンティストとしての一歩かな、と個人的には思います。
あ、でもちなみに自分はデータサイエンティストではありません。

まとめ

今回、Twitterのデータをつぶやきビッグデータとみなして、統計的処理に踏み込んでみました。
まじめにやるなら全然物足りないのですが、blogで書く分としては、こんなものでしょう。

それでは、次回より、さらにわかりやすい可視化に取り組んでみることにします。

それでは。

ITに頼って生きていく