Class: MagickColumns::Tokenizer

Inherits:

Object

Object
MagickColumns::Tokenizer

show all

Defined in:: lib/magick_columns/tokenizer.rb

Instance Method Summary collapse

#clean_query ⇒ Object
#extract_terms ⇒ Object
#initialize(query = '') ⇒ Tokenizer constructor

A new instance of Tokenizer.
#split_term_in_terms(term) ⇒ Object

Constructor Details

#initialize(query = '') ⇒ `Tokenizer`

Returns a new instance of Tokenizer.



3
4
5

# File 'lib/magick_columns/tokenizer.rb', line 3

def initialize(query = '')
  @query = query
end

Instance Method Details

#clean_query ⇒ `Object`

# File 'lib/magick_columns/tokenizer.rb', line 27

def clean_query
  @query.strip
    .gsub(%r{\A(\s*(#{MagickColumns.and_operators})\s+)+}, '')
    .gsub(%r{(\s+(#{MagickColumns.and_operators})\s*)+\z}, '')
    .gsub(%r{\A(\s*(#{MagickColumns.or_operators})\s+)+}, '')
    .gsub(%r{(\s+(#{MagickColumns.or_operators})\s*)+\z}, '')
end

#extract_terms ⇒ `Object`

# File 'lib/magick_columns/tokenizer.rb', line 7

def extract_terms
  terms = []

  clean_query.split(%r{\s+(#{MagickColumns.or_operators})\s+}).each do |o_t|
    unless o_t =~ %r{\A(#{MagickColumns.or_operators})\z}
      and_terms = []
      
      o_t.split(%r{\s+(#{MagickColumns.and_operators})\s+}).each do |t|
        unless t =~ %r{\A(#{MagickColumns.and_operators})\z}
          and_terms.concat split_term_in_terms(t)
        end
      end
      
      terms << and_terms unless and_terms.empty?
    end
  end

  terms.reject(&:empty?)
end

#split_term_in_terms(term) ⇒ `Object`

# File 'lib/magick_columns/tokenizer.rb', line 35

def split_term_in_terms(term)
  term_copy = term.dup
  terms = []
  
  MagickColumns.replacement_rules.each do |rule, options|
    pattern = options[:pattern].respond_to?(:call) ?
      options[:pattern].call : options[:pattern]
    
    while(match = term_copy.match(pattern))
      term_copy.sub!(pattern, options[:replacement].call(match))
    end
  end
  
  MagickColumns.tokenize_rules.each do |rule, options|
    pattern = options[:pattern].respond_to?(:call) ?
      options[:pattern].call : options[:pattern]
    
    while(match = term_copy.match(pattern))
      terms << options[:tokenizer].call(match)
      
      term_copy.sub!(pattern, '')
    end
  end
  
  terms + term_copy.strip.split(/\s+/).map { |t| { term: t } }
end

Class: MagickColumns::Tokenizer

Instance Method Summary collapse

Constructor Details

#initialize(query = '') ⇒ Tokenizer

Instance Method Details

#clean_query ⇒ Object

#extract_terms ⇒ Object

#split_term_in_terms(term) ⇒ Object

#initialize(query = '') ⇒ `Tokenizer`

#clean_query ⇒ `Object`

#extract_terms ⇒ `Object`

#split_term_in_terms(term) ⇒ `Object`