tfidf_ja
tfidf_jaは与えられた単語の配列の TF-IDF を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。
特徴
tfidf_jaには以下の特徴があります。
-
IDF辞書
-
IPADIC辞書に収録されている日本語の形態素(約32万語)を使用し、TF値をYahoo!のインデックス数としてあらかじめ算出。
-
算出したTF値からIDF値を算出し、IDF辞書としてライブラリに包含し、ライブラリ使用時の算出コストを減らしています。
-
-
形態素解析
-
igo-rubyを使用した形態素解析を行なった上で、TF-IDFを算出することをおすすめします。
-
インストール方法
コマンドプロンプトより以下を実行してください。
$ gem install tfidf_ja
サンプル
単語の配列からTF-IDFを取得
require 'rubygems'
require 'tfidf_ja'
ti = TfIdf::Ja.new
p ti.tfidf(['この', '文章', 'から', 'TFIDF', '値', 'を', '取得', 'する'])
インスタンスを使い回し
インスタンスを使い回すことにより、TF-IDF値は加算されていきます。 複数のテキストから連続して算出する場合に便利です。
付録
公開場所
Copyright
Copyright © 2011 K.Nishi. See LICENSE.txt for further details.