IT

fasttextとMecabとNeologd辞書でテキストマイニングを行うための環境構築手順

 

Advertisements

はじめに

 

fasttext

最近、googleのTensorFlowだけじゃなくて、Facebookも機械学習のライブラリを出したみたいです。
早速試してみたいとね!

 

Advertisements

やりたいこと

と、いうことで、使って、テキスト分類にトライしてみたいと思います。

fasttext
 

ここでは、ネガティブとポジティブを学習させて、twitterの発言やYammarのつぶやきを
ネガポジ判定を行うこと目標として、

  • その時系列情報を可視化したい。
  • ネガポジの発言者が属するクラスタの、組織のネガポジ度も可視化したい。

なんてこともやってみたいと思います。

 

環境構築

それでは、環境構築から始めていきましょう。
準備として、以下のことが必要です。

  1. fasttextのビルド
  2. mecabの構築
    • 日本語を使う場合
  3. fasttext、mecabをpythonから使えるようにする
    • この場合、自前でフルバージョンをビルドしているみたい。
      本家から取得したfasttextより古いバージョンを使うことになるようだ。
    • なので、本家でビルドして用意した学習モデルを、python側から使えないことに注意。

 

fasttextのビルド

ここからリポジトリを取得して、READMEに書いてあるようにビルドする。

前提として、gccとg++がないとダメなので、もしない場合は、事前にインストールしておく。

 

mecabの構築

世の中、日本語を扱おうと思ったら、猫も杓子もmecabですね。

 

mecabのインストール

ここみてインストールしてください

 

mecab-ipadic-NEologd辞書のインストール

デフォルトだと新しい単語に対応していません。
そこで、杓子定規にNEologd辞書を使うことにする。そして、日本語はこちら

以下のようにすれば、辞書を導入できます。

-a オプションを指定すると、辞書全部入り状態でインストールできる。

 

mecabと-neologdを試してみる

こんな風に使う。

 
【中居正広のミになる図書館】という番組名が、分解されずに固有名詞として抽出できましたね。

さて、実際使うとなると、毎回辞書を指定するのはかったるい。
そこで以下のように、デフォルトで辞書を変更させちゃう。

 

fasttext、mecabをpythonから使えるようにする

pipでインストール

冒頭でも触れましたが、このように導入したpythonのfasttextは、本家のものよりバージョンが古いです。
そのため、コマンドラインから学習させた学習モデルをpythonで取り込んで使うことはできません。
残念!

 

終わりに

今回は、fasttextを使ってテキストマイニングを粉うための環境構築について触れました。

次回は、テキストマイニングで日本語を扱うために行われる前処理について触れたいと思います。

 

Advertisements

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

nineteen − 5 =