COBOL技術者の憂鬱

COBOLプログラマは不在にしています

テキストマイニング

最近ちょっとやってみたいなぁと思っていることに、テキストマイニングっていうんですか、ああいう文章を大量に集めてきて解析するっていうのをやってみたいと考えています。
具体的には、140文字程度の文章wとキーワードを与えると、その文章内で言及されているキーワードに対する評価をポジティブかネガティブかで判定してくれるような関数なりライブラリが欲しいのです。
前にMovitterを作った時に、そこの部分をはしょってしまっていたので、自分の中で心残りになっているんでしょうね。


具体的なやり方としては…
まず、はてブから「これはすごい」タグがついているコメントを掻き集めてきて、全てのコメントを単語に分解した時に、その中で頻繁に登場する単語を「ポジティブ」な単語であるとみなし、抽出します。
同じようにして「これはひどい」タグがついたコメントから、ネガティブな単語を抽出することができるはずです。
で、次に、Twitterのつぶやきに対して、先程抽出した「ポジティブな単語」「ネガティブな単語」がどの程度あらわれているかを調べることによって、そのつぶやきのポジティブ・ネガティブ度合いを判定することができますよね。
あとはTwitterのキーワードサーチAPIと組み合わせれば、最初に話したような関数ができあがるはずです。


なんか、こういうやり方であっているのかどうかよくわからないんですが、いっぺんきちんと勉強した方がいいんでしょうね。