SPSSで簡単テキストマイニング

SPSS-Python連携で
簡単テキストマイニング！

例：健全なSNSを確立しよう！
● 非健全な発言を抽出して対策を取らねばならない
非健全な発言を抽出
● 非健全な発言を人手で全て調べるのは困難
● SPSS-Pythonを用いて自動化しよう！

SPSSによるテキストマイニング
● Text Analytics for Surveysを用いる
– メリット：簡単に定型処理が出来る
– デメリット：お金かかる
● Pythonと連携する
– メリット：特定のデータや処理に特化出来る
– デメリット：プログラミングスキルが必要
– ↓Pythonで必要なコード書きました。コピペでOK
– http://d.hatena.ne.jp/AntiBayesian/20120418

テキストのID化
● テキストマイニングをするためには、テキストのID
化が必要。ID化の一例を示す(ID化手法は様々
● 元テキスト：「他人のアカウントを乗っ取る」
● ID群[ID:単語]->1:犯罪, 2:金, 3:乗っ取り, 4:交際
● テキストID化後：[0, 0, 1, 0]

Pythonコード例
#coding:utf-8
import sys
import MeCab #形態素解析エンジンMeCabを利用

tagger = MeCab.Tagger("-Owakati") #分かち書き
read_file = sys.argv[1]
read_dictionary = sys.argv[2]

text_list = open(read_file).read().split('n')
dictionary = open(read_dictionary).read().split('n')
print ',' + ','.join(dictionary)

def set_id(text):
count = 0
id = []
for word in dictionary:
count += 1
id.append(str(text.count(word)))
return text + ',' + ','.join(id)

for text in text_list:
print set_id(text)

ID化実行例
犯金セック援交死殺ドラッシン麻薬
罪ス助際すグナー

援助交際してくれる 0 0 0 1 1 0 0 0 0 0
人募集中～
風邪気味なので風邪 0 0 0 0 0 0 0 0 0 0
薬買いに薬局へ行っ
てきた
渋谷にドラッグの密 0 0 0 0 0 0 0 1 0 0
売人がいるらしい
ふざけたこと言って 0 0 0 0 0 0 2 0 0 0
ると殺すぞ、絶対殺
す
麻薬体験ブログ公開 0 0 0 0 0 0 0 0 0 1
中！

まとめ
● SPSSはPythonと連携できる
● Pythonでデータ整形してSPSSに放り込むと便利
● SPSS-Pythonならテキストマイニングも簡単！

SPSSで簡単テキストマイニング

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (8)

SPSSで簡単テキストマイニング