pythonによるテキストマイニングことはじめ スパムフィルタリングpart.1【プログラムあり】

python活用 python

テキストマイニングとは何でしょうか?

このような疑問にお答えします。

テキストマイニングは、大量のテキストデータから、企業もしくは個人に利益をもたらす情報を取り出すことを目的として行います。

自然言語処理の手法を用いて、文書を単語に分割し、各単語の出現頻度、相関関係の分析を通じて有益な情報を抽出します。

自然言語処理(Natural Language Processing:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。(wikipediaより抜粋)

昨今では、通販サイトの口コミ情報や、SNS、ブログ等を代表とするメディア上にも膨大なテキストデータが蓄積されています。

これらのテキストデータは、市場の状況・環境、消費者の製品・サービスに対する人間の感情をリアルアイムに反映しており、これらを積極的に活用することが企業、そして個人ビジネスのアップデートに必要になるのではと思います。

そこで、今回は、テキストマイニングの活用としてpythonを用いてスパムフィルタリングを行ってみます。

データは、【SMS Spam Collection Dataset】を使用します。このデータは、メール文章とその文章が迷惑メールか否かを示す情報の組で構成されています。

このデータを用いて機械学習できる形に加工します。

これでデータの準備ができました。

今回、機械学習のモデルとして、畳み込みニューラルネットワークを使ってみます。モデル定義をしていきます。

これで、畳み込みニューラルネットワークのモデル定義が完成です。実際に学習を実施してみます。

学習完了です。次にモデルの評価をしてみます。

中々良さげな?気もします。どんな感じで分類しているのか確認してみます。

テストデータの先頭10個のデータを学習したモデルで予測した結果を見ると、一応すべて正解しているみたいです。

最後に、テキストマイニングの分野においても、昨今ではpython等の優れた環境がすでに提供されていますので、企業、個人のビジネスに活用してみましょう。

コメント

  1. […] pythonによるテキストマイニングことはじめ part.1【プログラムあり】 […]

タイトルとURLをコピーしました