Module: RetrievalLite::TfIdfRetrieval

Defined in:: lib/retrieval_lite/tfidf_retrieval.rb

Overview

Class Method Summary collapse

.evaluate(corpus, query) ⇒ Array<Document>

Queries a corpus using the tf-idf ranking algorithm and cosine similarity.
.evaluate_with_scores(corpus, query) ⇒ Hash<Document, Integer>

Queries a corpus using the tf-idf ranking algorithm and cosine similarity.
.normalized_tfidf_weight(corpus, document, term) ⇒ Float

Ranks a document in corpus using the normalized tf-idf scoring.
.tfidf_weight(corpus, document, term) ⇒ Float

Ranks a document in corpus using the tf-idf scoring.

Class Method Details

.evaluate(corpus, query) ⇒ `Array<Document>`

Queries a corpus using the tf-idf ranking algorithm and cosine similarity. Returns documents ordered by tf-idf score.

Parameters:

corpus (Corpus) —

the collection of documents
query (String) —

the boolean query to be evaluated

Returns:

(Array<Document>) —

ordered array of documents that satisfy the query



9
10
11

# File 'lib/retrieval_lite/tfidf_retrieval.rb', line 9

def self.evaluate(corpus, query)
  evaluate_with_scores(corpus, query).keys
end

.evaluate_with_scores(corpus, query) ⇒ `Hash<Document, Integer>`

Queries a corpus using the tf-idf ranking algorithm and cosine similarity. Same as #evaluate but returns a hash whose keys are documents and values are the tf-idf score.

Parameters:

corpus (Corpus) —

the collection of documents
query (String) —

the boolean query to be evaluated

Returns:

(Hash<Document, Integer>) —

ordered array of documents that satisfy the query

# File 'lib/retrieval_lite/tfidf_retrieval.rb', line 20

def self.evaluate_with_scores(corpus, query)
  query_document = RetrievalLite::Document.new(query)
  terms = query_document.term_frequencies.keys
  query_vector = query_document.term_frequencies.values # should be in same order as keys

  documents = Set.new # ordering of documents doesn't matter right now
  # gathering only the documents that contain at least one of those terms
  terms.each do |t|
    docs_with_term = corpus.documents_with(t)
    if docs_with_term
      docs_with_term.each do |d|
        if !documents.include?(d)
          documents << d
        end
      end
    end
  end

  scores = {}
  documents.each do |document|
    document_vector = Array.new(terms.size)
    terms.each_with_index do |term, index|
      document_vector[index] = tfidf_weight(corpus, document, term)
    end
    scores[document] = RetrievalLite::Vector.cosine_similarity(query_vector, document_vector)
  end

  # order it by score in descending order
  return Hash[scores.sort_by{|key, value| value}.reverse]
end

.normalized_tfidf_weight(corpus, document, term) ⇒ `Float`

Ranks a document in corpus using the normalized tf-idf scoring.

Parameters:

corpus (Corpus)
document (Document)
term (String)

Returns:

(Float) —

the normalized tfidf weight of the term in the document

.tfidf_weight(corpus, document, term) ⇒ `Float`

Note:

tf-idf is slightly modified. n_j (# of docs containing term j) is replaced with n_j + 1 to avoid divide by zero

Ranks a document in corpus using the tf-idf scoring.

Parameters:

corpus (Corpus)
document (Document)
term (String)

Returns:

(Float) —

the tfidf weight of the term in the document

# File 'lib/retrieval_lite/tfidf_retrieval.rb', line 59

def self.tfidf_weight(corpus, document, term)
  if corpus.document_frequency(term) == 0
    return 0
  else
    return document.frequency_of(term) * Math.log(1.0 * corpus.size/(corpus.document_frequency(term)))
  end
end

Module: RetrievalLite::TfIdfRetrieval

Overview

Class Method Summary collapse

Class Method Details

.evaluate(corpus, query) ⇒ Array<Document>

.evaluate_with_scores(corpus, query) ⇒ Hash<Document, Integer>

.normalized_tfidf_weight(corpus, document, term) ⇒ Float

.tfidf_weight(corpus, document, term) ⇒ Float

.evaluate(corpus, query) ⇒ `Array<Document>`

.evaluate_with_scores(corpus, query) ⇒ `Hash<Document, Integer>`

.normalized_tfidf_weight(corpus, document, term) ⇒ `Float`

.tfidf_weight(corpus, document, term) ⇒ `Float`