はじめに
Twitterのつぶやきを統計的に分析してみる その2。
つぶやきビッグデータを分析していきます。
第1弾では、高頻度に使用される単語を、ヒストグラムを使ってあぶりだすことを行いました。
今回は、定量的ではなく定性的ですが、見た目重視のインパクトのある可視化手法を紹介します。
前提
Twitterのつぶやきを感情分析してみるシリーズ
第1弾と第2弾での処理が完了し、
以下の前処理が完了した分析用のデータが手元にあること。
- クレンジング(正規化)
- 形態素解析
- 品詞フィルタリング
- ストップワード除去
繰り返しになりますが、公開されている(鍵付きではない)アカウント
とはいえど、
自分のつぶやきだけじゃないので、データそのものの公開は控えることにします。
統計処理と可視化の内容(予定)
今回は、以下のような分析と可視化を行ってみることにします。
- よく使用される単語ヒストグラム
- word cloud
- 単語間の類似度
- アカウント間のつぶやき内容の類似度
単なる統計量の可視化で、分析とは言えないレベルなのは重々承知。
が、そもそも、テキストマイニングで定量的評価を行うだけで興味深い点があると思う。
早速、可視化してみる
では早速。
前回も言及しましたが、可視化対象は、筆者が興味のある、個人的に知ってるアカウント
となります。
ので、一部の人たちは面白いかもしれないが、そうでない人は、かなりつまらないと思う
。
1. よく使用される単語ヒストグラム
前回の記事を参照してください。
2. wordcloud
前章では、発言によく使われる単語をヒストグラム化してみました。
定量的に理解し、統計的に分析を行うには必要なプロセスですが、
直感的には理解するには、他にも有効な方法があります。
それが、word cloudです。
論より証拠、早速見てみましょう。
2.1 無難なアカウント
以下の、二つのアカウントについて、word cloudの実例を示します。
Account | 開始日時(JST) | 終了日時(JST) | 件数 | 補足 |
---|---|---|---|---|
@matsuoka_shuzo | 2017-05-08 18:30:32 | 2017-08-17 14:13:01 | 3,213件 | 松岡修造氏公式アカウント |
@nikkei | 2017-07-02 08:43:43 | 2017-08-17 14:49:02 | 2,948件 | 日経新聞アカウント |
Twitter APIの仕様上、つぶやきの取得はおよそ3,000件が上限となります。
そのため、多く呟いている人ほど取得期間が短くなる
傾向にあります。
@nikkeiさん、1.5か月しかないとは、、、、、、
調査対象とした38個のアカウント内で、もっとも呟いていました。
中の人、たくさんいるんだろうな。
@matsuoka_shuzo | @nikkei |
---|---|
松岡修造氏(の公式botだと筆者は思っている)は、比較的、発言内容が偏らないみたいです。
そのため、特に目立つ大きな単語がない
ですね。
一方で、日経新聞のアカウントは、北朝鮮と中国の関連記事などについて、特に発言したようですね。
あとは、東京証券取引所の状況に関するものが、多そうです。
2.2 Tクラスタの方
@iwasaki_p | @shin_kosa |
---|---|
@iwasaki_p氏:今日、かなり飲むのが良さそうですね!
@shin_kosa氏:今日も早く買って、Yahooニュース見ながらビール飲むのがよさそうです。
2.3 Nクラスタの方
@toosee_spidy | @PRpha |
---|---|
@toosee_spidy氏:撮影!
@PRpha氏:寄生獣、買っちゃう?
2.4 Mクラスタの方
@boomin614 | @yutokiku |
---|---|
@shimasho | @karen529mm |
@yutokiku氏:期待を裏切らないラーメンの自己主張
。これは主張しすぎなのでは笑。
@shimasho氏:前回も触れましたけど、夏休み子ども科学電話相談の影響ですね。ゲンコォ・・・
@karen529mm氏:LIVE、相当行ってるようです。
まとめ
こうして、前回、今回と、Twitterの発言内容を定量的に評価できるような準備と、その可視化をしてみました。
次回は、いよいよDeep Neural Netwokを使った機械学習で、発言内容を学習させて、発言内容などの類似度などを評価、可視化していきたいと思います。
それでは。