Class: Punkt::SentenceTokenizer

Inherits:

Base

Object
Base
Punkt::SentenceTokenizer

show all

Defined in:: lib/punkt-segmenter/punkt/sentence_tokenizer.rb

Class Method Summary collapse

Instance Method Summary collapse

#initialize(train_text_or_parameters, language_vars = Punkt::LanguageVars.new, token_class = Punkt::Token) ⇒ SentenceTokenizer constructor

A new instance of SentenceTokenizer.
#sentences_from_text(text, options = {}) ⇒ Object (also: #tokenize)
#sentences_from_tokens(tokens) ⇒ Object

Methods inherited from Base

#tokenize_words

Constructor Details

#initialize(train_text_or_parameters, language_vars = Punkt::LanguageVars.new, token_class = Punkt::Token) ⇒ `SentenceTokenizer`

Returns a new instance of SentenceTokenizer.

# File 'lib/punkt-segmenter/punkt/sentence_tokenizer.rb', line 3

def initialize(train_text_or_parameters,
               language_vars = Punkt::LanguageVars.new, 
               token_class   = Punkt::Token)
               
  super(language_vars, token_class)
  
  @trainer = nil
  
  if train_text_or_parameters.kind_of?(String)
    @parameters = train(train_text_or_parameters)
  elsif train_text_or_parameters.kind_of?(Punkt::Parameters) 
    @parameters = train_text_or_parameters
  else
    raise "You need to pass trainer parameters or a text to train."
  end
end

Class Method Details

.sentences_text(text, sentences_indexes) ⇒ `Object`



47
48
49

# File 'lib/punkt-segmenter/punkt/sentence_tokenizer.rb', line 47

def sentences_text(text, sentences_indexes)
  sentences_indexes.map { |index| text[index[0]..index[1]] }
end

.tokenized_sentences(text, sentences_indexes) ⇒ `Object`

# File 'lib/punkt-segmenter/punkt/sentence_tokenizer.rb', line 51

def tokenized_sentences(text, sentences_indexes)
  tokenizer = Punkt::Base.new()
  self.sentences_text(text, sentences_indexes).map { |text| tokenizer.tokenize_words(text, :output => :string) }
end

Instance Method Details

#sentences_from_text(text, options = {}) ⇒ `Object` Also known as: tokenize

# File 'lib/punkt-segmenter/punkt/sentence_tokenizer.rb', line 20

def sentences_from_text(text, options = {})
  sentences = split_in_sentences(text)
  sentences = realign_boundaries(text, sentences) if options[:realign_boundaries]
  sentences = self.class.send(options[:output], text, sentences) if options[:output]
  
  return sentences
end

#sentences_from_tokens(tokens) ⇒ `Object`

# File 'lib/punkt-segmenter/punkt/sentence_tokenizer.rb', line 29

def sentences_from_tokens(tokens)
  tokens = annotate_tokens(tokens.map { |t| @token_class.new(t) })
  
  sentences = []
  sentence = []
  tokens.each do |t|
    sentence << t.token
    if t.sentence_break
      sentences << sentence
      sentence = [] 
    end
  end
  sentences << sentence unless sentence.empty?
  
  return sentences
end

Class: Punkt::SentenceTokenizer

Class Method Summary collapse

Instance Method Summary collapse

Methods inherited from Base

Constructor Details

#initialize(train_text_or_parameters, language_vars = Punkt::LanguageVars.new, token_class = Punkt::Token) ⇒ SentenceTokenizer

Class Method Details

.sentences_text(text, sentences_indexes) ⇒ Object

.tokenized_sentences(text, sentences_indexes) ⇒ Object

Instance Method Details

#sentences_from_text(text, options = {}) ⇒ Object Also known as: tokenize

#sentences_from_tokens(tokens) ⇒ Object

#initialize(train_text_or_parameters, language_vars = Punkt::LanguageVars.new, token_class = Punkt::Token) ⇒ `SentenceTokenizer`

.sentences_text(text, sentences_indexes) ⇒ `Object`

.tokenized_sentences(text, sentences_indexes) ⇒ `Object`

#sentences_from_text(text, options = {}) ⇒ `Object` Also known as: tokenize

#sentences_from_tokens(tokens) ⇒ `Object`