pythonを用いたテキストマイニング ニュース記事解析 GloVe活用【プログラムあり】

python活用 python

テキストマイニングをしてみたいです。

このような要望にお応えします。

今回は、GloVeを使いたいと思います。

GloVeは、単語をベクトル化する手法のことです。このベクトル化したものを単語の分散表現と呼びます。GloVeは単語の意味は周囲の単語により形成されるという考えに基づいています。
これを分布仮説と呼びます。類似する意味や使われ方をする単語は類似する文脈の中に登場するという考えのもと、単語をベクトル化しています。このため、上記のような類似単語同士はベクトル空間上で近い場所に存在し、コサイン類似度が高くなります。

データ収集

データとしては、特定のキーワードを含むニュース記事をスクレイピングして利用することを考えます。キーワードは、”買い占め”、”暴落”、”安部”、”花見”、”緊急事態宣言”を設定し、ニュース記事を収集しました。pythonによるスクレイピング時に使われているツールなどは、下記記事で紹介しています。

収集したデータは、下記のようにcsv形式で保存しています。

キーワード”暴落”

キーワード”買い占め”

キーワード”安部首相”

キーワード”花見”

キーワード”緊急事態宣言”

コーパスの作成

テキストマイニングを行うために、テキストを分かち書きします。このとき、文書において語の区切りに空白を挟んで記述する必要があります。これをjanomeで解析処理します。

データ加工/学習

pythonのGloVeのライブラリは、以下のリンク先を利用します。
https://github.com/hans/glove.py

GloVeの学習で必要となる単語辞書、共起行列の作成を行います。作成したコーパス、単語辞書、共起行列を用いて、学習を行います。

ソースコード

マイニング結果(関連語抽出)

学習したモデルに対して、キーワードを入力し、関連語を抽出します。また、各キーワードの学習結果をwordcloudで出力してみます。

キーワード”暴落”

キーワード”買い占め”

キーワード”安部首相”

キーワード”花見”

キーワード”緊急事態宣言”

これらの出力は、各キーワードに対して関連度の高い単語で構成されています。
このように、GloVeを使えば、単語間の関連度が高いもの(類義語など)を見つけることもできます。
是非活用してみてください。

タイトルとURLをコピーしました