IT麺活監視

Twitterのつぶやきを統計的に分析してみる その4

 

Advertisements

はじめに

Twitterのつぶやきを統計的に分析してみる その4。
前回、Twitterのつぶやきを文脈ごと機械学習させて、言葉の類似度を計算してみました。
今回は、この類似度の計算結果を関連図にして、直感的に理解しやすい可視化を行ってみます。

 

前提

Twitterのつぶやきを感情分析してみるシリーズ
第1弾第2弾での処理が完了し、
以下の前処理が完了した分析用のデータが手元にあること。

  • クレンジング(正規化)
  • 形態素解析
  • 品詞フィルタリング
  • ストップワード除去

繰り返しになりますが、公開されている(鍵付きではない)アカウントとはいえど、
自分のつぶやきだけじゃないので、データそのものの公開は控えることにします。

 

統計処理と可視化の内容

今回は、以下のような分析と可視化を行ってみることにします。

  1. よく使用される単語ヒストグラム
  2. word cloud(前々回)
  3. 単語間の類似度(前回)
  4. アカウント間のつぶやき内容の類似度(今回)
    • 例えば、yutokikuというアカウントとshimashoというアカウントの、文脈の内容の類似度を計算できます。
    • その類似度をもとに、アカウント間の関連をネットワーク図にすることができます。

 

1. tweet内容の分析

 

1.1 対象アカウント

@yutokiku氏@shimasho氏@boomin614の3つのアカウントを詳細に分析してみます。
その他のアカウントは、後半には可視化した画像を掲載します。
各アカウントのつぶやきとして使用したtweetデータの概要をまとめておきます。

Account開始日時(JST)終了日時(JST)件数備考
@yutokiku2015-10-14 13:50:202017-08-10 22:53:203,213件
@shimasho2017-02-25 10:55:362017-08-11 04:15:402,734件短期間
@boomin6142015-04-24 00:16:162017-08-10 08:47:412,810件

 
@shimasho氏のつぶやきは、ほぼ毎日、そして1日で何回も呟いています。
Twitter APIの取得条件が、およそ3,000件と決まっているため、
よくつぶやくアカウントほど、取得期間が短くなります

 

Advertisements

1.2 分析内容

機械学習による文脈分析と、統計処理による頻度分析を実施しました。
その処理内容の大まかな説明は以下の通りです。

 

1.3 分析結果

 

1.3.1 @yutokiku氏

まずは、麺活erの@yutokiku氏から。
左右の可視化結果で、いくつか違いが判りますね。


赤丸:単語の使用頻度解析から、特に注目すべきと判断された言葉  青丸:その他の単語
※円の大きさ:単語の登場回数
※線の太さ:単語間の関連の強さ(左:文脈中で同じように使用される度合、右:同時使用される度合)

 

  • (左)機械学習による文脈分析結果のほうが、明瞭なグループに分けることができる

一方で、単純な統計処理では、2つのグループに分けられるかどうか?という結果となりました。
いや、普段のつぶやき内容を知らなければ、2つに分けようとすら思えないかもしれません。

  • (左)機械学習による文脈分析結果は、麺活関連で3つ、日々の感想で2つののグループに分けることができる

麺活関連だけで1つのグループとならず、さらにその中でも幾つかのグループに分割される結果となっています。
しかも、言葉の意味が近いものが集まり、各グループが何の集まりなのか推察しやすい結果となっています。
この点は、機械学習で文脈を分析したからといえるでしょう。


このような結果から、@yutokiku氏のつぶやきは、以下のように解釈して良さそうです。

  1. 大きく、『麺活関連』『それ以外』 につぶやきを分けることができる。
  2. 『麺活関連』 は、麺活の活動領域(地域名や店名など)と、感想のグループに分けることができる
  3. 『それ以外』 は、仕事とそれに関連する資格試験の勉強などのグループと、
    旅行やニュースなどのプライベート寄りのグループに分けられる

まだ手掛けてはいませんが、これらの5つのグループに分類する学習エンジンを作り、
時系列データとして各グループがいつ卓越するのかを折れ線グラフなどにすれば、
仕事が忙しかった時期、旅行している時期とその行先、などのパターンが見えてくると思われます。

これまたやりませんが、アイドルグループのメンバーもTwitterを同様に分析して、
新曲リリースや某投票イベント、スキャンダルなどのタイミングと合わせて解析すれば、
事前にイベントの予測を行うことができるようになるかもしれませんね。

あ、そろそろこのメンバーはセンテンススプリングされそう、とか。

 

1.3.2 @shimasho氏

@shimasho氏のつぶやきは、日々10も20も呟いているため、ほかの2つのアカウントと比較して、
分析対象期間が非常に短い、という点が特徴的です。


赤丸:単語の使用頻度解析から、特に注目すべきと判断された言葉  青丸:その他の単語
※円の大きさ:単語の登場回数
※線の太さ:単語間の関連の強さ(左:文脈中で同じように使用される度合、右:同時使用される度合)

 

  • 夏の風物詩、NHK夏休み子ども科学電話相談の存在感が大きい

@shimasho氏は、おそらくリアルタイムでこのラジオを聴いていて、面白いトピックを呟いています。
そこで登場する言葉が、どちらの分析でも、1つのグループとして表現されていますね。
ただ、文脈分析の結果(左)のほうが、「天文」「深海」「動物」「植物」など、質問内容のトピックもうまく拾えていますね。

@shimasho氏は、呟く回数も多く、分析対象期間が短くなっています。
そのため、より直近の夏休みの話題が強く反映されたのでしょう。

  • 社長?弁護士?

どうやらこれは、2017年3月ごろに話題となった、DeNAのWELQ(ウェルク)問題のトピックのようです。
統計処理の結果(右)には、それを伺えるようなグループは存在しませんね。
しかし、文脈分析の結果(左)にはグループが作られています
描画の過程で、あまりにも 細かい情報は削減した のですが、これよりもう少し増やすと、
WelqやらDeNAなどの単語も出てきたのだと思われます。

  • ゲンコォと遺伝子

両者の関連は強くはないですが、左右の結果を見比べると、ここから推察できる内容がまるで違ってきます。
例えば、右の頻度分析をしただけでは、お仕事について想像できることは、あまりありません。
東京で働いていて、社長に稼げる事業のアイデアを持ってこいとお尻を叩かれているのではないか、
なんて想像をしてしまいます。そして、遺伝子のニュースには興味はありそうだけど、その程度か、と。

しかし、左の文脈分析を見れば、この解釈が誤っているだろうとことがわかります。
遺伝子関連に強く興味を持ち(類似するノードが多い)、blogで情報発信をするくらいの
活動をしていることが予想できます。
あと、ゲンコォを明日にしようとしていそう、とか。


このような結果から、@shimasho氏のつぶやきは、以下のように解釈して良さそうです。

  1. NHK夏休み子ども科学電話相談のファン
    • そして、普段からよくつぶやくために、より直近の話題が色濃く反映されている
  2. 遺伝子に強い興味を持つ
    • 自分で情報発信をするくらいのようだ
  3. むしろ、もの書きなんだろう
    • ゲンコォ を書かないといけないようですし。いや、書かせる側なのかもしれません笑。編集長みたいだし。

 

1.3.3 @boomin614

自分のつぶやきですが、分析結果がびっくりするくらいつまらない内容です。


赤丸:単語の使用頻度解析から、特に注目すべきと判断された言葉  青丸:その他の単語
※円の大きさ:単語の登場回数
※線の太さ:単語間の関連の強さ(左:文脈中で同じように使用される度合、右:同時使用される度合)

 

  • 頻度分析(右)には、これといったグループができていない

これが何を意味するのか・・・・・
特定の話題ばかり呟いているのか、あるいはいつも取り留めなく、
あまり関連のないことを呟いているのか・・・・どうなんしょうね。

  • リアルタイム麺活監視システムで何かをしようとしているようだ

うん、それはそうですね。
せっかく自分で開発したシステムですもの。その分析が面白かったら呟きたくもなりますよね。

  • その他3つのグループ

これが意味不明。
1つはニュースの感想を呟いているものだと思うのですが、「飲み食い」とラベル付けしてみたグループとか
下のほうのグループとか、何と言ったらいいのやら。。。。


このような結果から、@boomin614のつぶやきは、以下のように解釈して良さそうです。

  1. 麺活監視システムと、ニュースの感想をよくつぶやくようだ。
  2. あとは、意味不明なつぶやきのようだ。

 

2 その他のアカウント

以下は、特に分析や考察まではしていませんが、可視化を行った結果を示しておきます。

 

2.1 @toosee_spidy氏

機械学習による文脈分析の結果統計的処理による頻度分析の結果

 

2.2 @PRpha氏

機械学習による文脈分析の結果統計的処理による頻度分析の結果

 

2.3 @iwasaki_p氏

機械学習による文脈分析の結果統計的処理による頻度分析の結果

 

2.4 @shin_kosa氏

機械学習による文脈分析の結果統計的処理による頻度分析の結果

 

3. アカウント間の関連度

最後に、今回可視化した対象アカウントプラスαのアカウント間の類似度について、可視化してみました。


赤丸:Mグループ、青丸:Nグループ、緑丸:Tグループ
※円の大きさ:全て同じ
※線の太さ:アカウント間の類似度

何故だかわかりませんが、@shin_kosa氏のつぶやきが、比較的多くのアカウントと類似性が高いようです。
2.4節で示した図から察するに、仕事に行って、帰って、洗濯して、たまに休むという内容が、
だいたい多くのアカウントで共通しているのでしょうか。

 

まとめ

こうして、つぶやき内容を分析して、その文脈の解釈までしてみると、
そのアカウントでつぶやかれている内容をより強調・浮かび上がらせることを示すことができました。
こうした分析を行うことで、その人を特徴づける何かを、推察することができそうです。

最近、AIで企業の採用活動にも取り入れられているとニュースが出ています。
その人の特性を探り、企業や部署をよりマッチングさせるための取り組みで、よく使用されているそうです。

また一方で、企業が学生のSNSをチェックするなんて言う話もあります。
何をチェックしているのか知りませんが、こうした分析をしていたりすると、
どんな生活をしているのかが一目瞭然になってしまいますね。

Twitterのつぶやきを分析してみるシリーズは、一旦ここまでとしたいと思います。

それでは。

 

Advertisements

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

5 × four =