はじめに
Twitterのつぶやきを統計的に分析してみる その4。
前回、Twitterのつぶやきを文脈ごと機械学習させて、言葉の類似度を計算してみました。
今回は、この類似度の計算結果を関連図にして、直感的に理解しやすい可視化を行ってみます。
前提
Twitterのつぶやきを感情分析してみるシリーズ
第1弾と第2弾での処理が完了し、
以下の前処理が完了した分析用のデータが手元にあること。
- クレンジング(正規化)
- 形態素解析
- 品詞フィルタリング
- ストップワード除去
繰り返しになりますが、公開されている(鍵付きではない)アカウント
とはいえど、
自分のつぶやきだけじゃないので、データそのものの公開は控えることにします。
統計処理と可視化の内容
今回は、以下のような分析と可視化を行ってみることにします。
- よく使用される単語ヒストグラム
- word cloud(前々回)
- 単語間の類似度(前回)
- アカウント間のつぶやき内容の類似度(今回)
- 例えば、yutokikuというアカウントとshimashoというアカウントの、文脈の内容の類似度を計算できます。
- その類似度をもとに、アカウント間の関連をネットワーク図にすることができます。
1. tweet内容の分析
1.1 対象アカウント
@yutokiku氏
、@shimasho氏
、@boomin614
の3つのアカウントを詳細に分析してみます。
その他のアカウントは、後半には可視化した画像を掲載します。
各アカウントのつぶやきとして使用したtweetデータの概要をまとめておきます。
Account | 開始日時(JST) | 終了日時(JST) | 件数 | 備考 |
---|---|---|---|---|
@yutokiku | 2015-10-14 13:50:20 | 2017-08-10 22:53:20 | 3,213件 | – |
@shimasho | 2017-02-25 10:55:36 | 2017-08-11 04:15:40 | 2,734件 | 短期間 |
@boomin614 | 2015-04-24 00:16:16 | 2017-08-10 08:47:41 | 2,810件 | – |
@shimasho氏のつぶやきは、ほぼ毎日、そして1日で何回も呟いています。
Twitter APIの取得条件が、およそ3,000件と決まっているため、
よくつぶやくアカウントほど、取得期間が短くなります。
1.2 分析内容
機械学習による文脈分析
と、統計処理による頻度分析
を実施しました。
その処理内容の大まかな説明は以下の通りです。
1.3 分析結果
1.3.1 @yutokiku氏
まずは、麺活erの@yutokiku氏から。
左右の可視化結果で、いくつか違いが判りますね。
※赤丸:単語の使用頻度解析から、特に注目すべきと判断された言葉 青丸:その他の単語
※円の大きさ:単語の登場回数
※線の太さ:単語間の関連の強さ(左:文脈中で同じように使用される度合、右:同時使用される度合)
- (左)機械学習による文脈分析結果のほうが、
明瞭なグループに分ける
ことができる
一方で、単純な統計処理では、2つのグループに分けられるかどうか?という結果となりました。
いや、普段のつぶやき内容を知らなければ、2つに分けようとすら思えないかもしれません。
- (左)機械学習による文脈分析結果は、
麺活関連で3つ、日々の感想で2つののグループに分ける
ことができる
麺活関連だけで1つのグループとならず、さらにその中でも幾つかのグループに分割される結果となっています。
しかも、言葉の意味が近いものが集まり、各グループが何の集まりなのか推察しやすい
結果となっています。
この点は、機械学習で文脈を分析したからといえるでしょう。
このような結果から、@yutokiku氏のつぶやきは、以下のように解釈して良さそうです。
- 大きく、『麺活関連』 と 『それ以外』 につぶやきを分けることができる。
- 『麺活関連』 は、麺活の活動領域(地域名や店名など)と、感想のグループに分けることができる
- 『それ以外』 は、
仕事とそれに関連する
資格試験の勉強などのグループと、
旅行やニュースなどのプライベート寄りのグループ
に分けられる
まだ手掛けてはいませんが、これらの5つのグループに分類する学習エンジンを作り、
時系列データとして各グループがいつ卓越するのかを折れ線グラフなどにすれば、
仕事が忙しかった時期、旅行している時期とその行先、などのパターンが見えてくる
と思われます。
これまたやりませんが、アイドルグループのメンバーもTwitterを同様に分析して、
新曲リリースや某投票イベント、スキャンダルなどのタイミングと合わせて解析すれば、
事前にイベントの予測を行うことができる
ようになるかもしれませんね。
あ、そろそろこのメンバーはセンテンススプリングされそう、とか。
1.3.2 @shimasho氏
@shimasho氏のつぶやきは、日々10も20も呟いているため、ほかの2つのアカウントと比較して、
分析対象期間が非常に短い、という点が特徴的です。
※赤丸:単語の使用頻度解析から、特に注目すべきと判断された言葉 青丸:その他の単語
※円の大きさ:単語の登場回数
※線の太さ:単語間の関連の強さ(左:文脈中で同じように使用される度合、右:同時使用される度合)
- 夏の風物詩、
NHK夏休み子ども科学電話相談
の存在感が大きい
@shimasho氏は、おそらくリアルタイムでこのラジオを聴いていて、面白いトピックを呟いています。
そこで登場する言葉が、どちらの分析でも、1つのグループとして表現されていますね。
ただ、文脈分析の結果(左)のほうが、「天文」「深海」「動物」「植物」など、質問内容のトピックもうまく拾えています
ね。
@shimasho氏は、呟く回数も多く、分析対象期間が短くなっています。
そのため、より直近の夏休みの話題が強く反映されたのでしょう。
- 社長?弁護士?
どうやらこれは、2017年3月ごろに話題となった、DeNAのWELQ(ウェルク)問題のトピックのようです。
統計処理の結果(右)には、それを伺えるようなグループは存在しませんね。
しかし、文脈分析の結果(左)にはグループが作られています
。
描画の過程で、あまりにも 細かい情報は削減した のですが、これよりもう少し増やすと、
WelqやらDeNAなどの単語も出てきたのだと思われます。
- ゲンコォと遺伝子
両者の関連は強くはないですが、左右の結果を見比べると、ここから推察できる内容がまるで違ってきます。
例えば、右の頻度分析をしただけでは、お仕事について想像できることは、あまりありません。
東京で働いていて、社長に稼げる事業のアイデアを持ってこいとお尻を叩かれている
のではないか、
なんて想像をしてしまいます。そして、遺伝子のニュースには興味はありそうだけど、その程度か、と。
しかし、左の文脈分析を見れば、この解釈が誤っているだろうとことがわかります。
遺伝子関連に強く興味を持ち(類似するノードが多い)、blogで情報発信をするくらいの
活動をしていることが予想できます。
あと、ゲンコォを明日にしようとしていそう
、とか。
このような結果から、@shimasho氏のつぶやきは、以下のように解釈して良さそうです。
NHK夏休み子ども科学電話相談
のファン- そして、普段からよくつぶやくために、より直近の話題が色濃く反映されている
遺伝子
に強い興味を持つ- 自分で情報発信をするくらいのようだ
- むしろ、もの書きなんだろう
- ゲンコォ を書かないといけないようですし。いや、書かせる側なのかもしれません笑。編集長みたいだし。
1.3.3 @boomin614
自分のつぶやきですが、分析結果がびっくりするくらいつまらない内容です。
※赤丸:単語の使用頻度解析から、特に注目すべきと判断された言葉 青丸:その他の単語
※円の大きさ:単語の登場回数
※線の太さ:単語間の関連の強さ(左:文脈中で同じように使用される度合、右:同時使用される度合)
- 頻度分析(右)には、これといったグループができていない
これが何を意味するのか・・・・・
特定の話題ばかり呟いているのか、あるいはいつも取り留めなく、
あまり関連のないことを呟いているのか・・・・どうなんしょうね。
- リアルタイム麺活監視システムで何かをしようとしているようだ
うん、それはそうですね。
せっかく自分で開発したシステムですもの。その分析が面白かったら呟きたくもなりますよね。
- その他3つのグループ
これが意味不明。
1つはニュースの感想を呟いているものだと思うのですが、「飲み食い」とラベル付けしてみたグループとか
下のほうのグループとか、何と言ったらいいのやら。。。。
このような結果から、@boomin614のつぶやきは、以下のように解釈して良さそうです。
- 麺活監視システムと、ニュースの感想をよくつぶやくようだ。
- あとは、意味不明なつぶやきのようだ。
2 その他のアカウント
以下は、特に分析や考察まではしていませんが、可視化を行った結果を示しておきます。
2.1 @toosee_spidy氏
機械学習による文脈分析の結果 | 統計的処理による頻度分析の結果 |
---|---|
2.2 @PRpha氏
機械学習による文脈分析の結果 | 統計的処理による頻度分析の結果 |
---|---|
2.3 @iwasaki_p氏
機械学習による文脈分析の結果 | 統計的処理による頻度分析の結果 |
---|---|
2.4 @shin_kosa氏
機械学習による文脈分析の結果 | 統計的処理による頻度分析の結果 |
---|---|
3. アカウント間の関連度
最後に、今回可視化した対象アカウントプラスαのアカウント間の類似度について、可視化してみました。
※赤丸:Mグループ、青丸:Nグループ、緑丸:Tグループ
※円の大きさ:全て同じ
※線の太さ:アカウント間の類似度
何故だかわかりませんが、@shin_kosa氏のつぶやきが、比較的多くのアカウントと類似性が高いようです。
2.4節で示した図から察するに、仕事に行って、帰って、洗濯して、たまに休む
という内容が、
だいたい多くのアカウントで共通しているのでしょうか。
まとめ
こうして、つぶやき内容を分析して、その文脈の解釈までしてみると、
そのアカウントでつぶやかれている内容をより強調・浮かび上がらせることを示すことができました。
こうした分析を行うことで、その人を特徴づける何か
を、推察することができそうです。
最近、AIで企業の採用活動にも取り入れられている
とニュースが出ています。
その人の特性を探り、企業や部署をよりマッチングさせるための取り組みで、よく使用されているそうです。
また一方で、企業が学生のSNSをチェック
するなんて言う話もあります。
何をチェックしているのか知りませんが、こうした分析をしていたりすると、
どんな生活をしているのかが一目瞭然
になってしまいますね。
Twitterのつぶやきを分析してみるシリーズは、一旦ここまでとしたいと思います。
それでは。