tfidf_ja

tfidf_jaは与えられた単語の配列の TF-IDF を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。

特徴

tfidf_jaには以下の特徴があります。

  • IDF辞書

    • IPADIC辞書に収録されている日本語の形態素(約32万語)を使用し、TF値をYahoo!のインデックス数としてあらかじめ算出。

    • 算出したTF値からIDF値を算出し、IDF辞書としてライブラリに包含し、ライブラリ使用時の算出コストを減らしています。

  • 形態素解析

    • igo-rubyを使用した形態素解析を行なった上で、TF-IDFを算出することをおすすめします。

インストール方法

コマンドプロンプトより以下を実行してください。

$ gem install tfidf_ja

サンプル

単語の配列からTF-IDFを取得

require 'rubygems'
require 'tfidf_ja'

ti = TfIdf::Ja.new
p ti.tfidf(['この', '文章', 'から', 'TFIDF', '', '', '取得', 'する'])

インスタンスを使い回し

インスタンスを使い回すことにより、TF-IDF値は加算されていきます。 複数のテキストから連続して算出する場合に便利です。

付録

公開場所

Copyright © 2011 K.Nishi. See LICENSE.txt for further details.