Class: Transformers::XlmRoberta::XLMRobertaTokenizerFast

Inherits:

Object
PreTrainedTokenizerBase
PreTrainedTokenizerFast
Transformers::XlmRoberta::XLMRobertaTokenizerFast

show all

Defined in:: lib/transformers/models/xlm_roberta/tokenization_xlm_roberta_fast.rb

Constant Summary collapse

VOCAB_FILES_NAMES =

{vocab_file: "sentencepiece.bpe.model", tokenizer_file: "tokenizer.json"}

Constants included from SpecialTokensMixin

SpecialTokensMixin::SPECIAL_TOKENS_ATTRIBUTES

Instance Attribute Summary

Attributes inherited from PreTrainedTokenizerBase

#init_kwargs, #model_max_length

Instance Method Summary collapse

Constructor Details

#initialize(vocab_file: nil, tokenizer_file: nil, bos_token: "<s>", eos_token: "</s>", sep_token: "</s>", cls_token: "<s>", unk_token: "<unk>", pad_token: "<pad>", mask_token: "<mask>", **kwargs) ⇒ `XLMRobertaTokenizerFast`

self.slow_tokenizer_class = XLMRobertaTokenizer

# File 'lib/transformers/models/xlm_roberta/tokenization_xlm_roberta_fast.rb', line 24

def initialize(
  vocab_file: nil,
  tokenizer_file: nil,
  bos_token: "<s>",
  eos_token: "</s>",
  sep_token: "</s>",
  cls_token: "<s>",
  unk_token: "<unk>",
  pad_token: "<pad>",
  mask_token: "<mask>",
  **kwargs
)
  # Mask token behave like a normal word, i.e. include the space before it
  mask_token = mask_token.is_a?(String) ? Tokenizers::AddedToken.new(mask_token, lstrip: true, rstrip: false) : mask_token

  super(vocab_file, tokenizer_file: tokenizer_file, bos_token: bos_token, eos_token: eos_token, sep_token: sep_token, cls_token: cls_token, unk_token: unk_token, pad_token: pad_token, mask_token: mask_token, **kwargs)

  @vocab_file = vocab_file
end

Instance Method Details

#build_inputs_with_special_tokens(token_ids_0, token_ids_1: nil) ⇒ `Object`

# File 'lib/transformers/models/xlm_roberta/tokenization_xlm_roberta_fast.rb', line 48

def build_inputs_with_special_tokens(token_ids_0, token_ids_1: nil)
  if token_ids_1.nil?
    return [@cls_token_id] + token_ids_0 + [@sep_token_id]
  end
  cls = [@cls_token_id]
  sep = [@sep_token_id]
  cls + token_ids_0 + sep + sep + token_ids_1 + sep
end

#can_save_slow_tokenizer ⇒ `Object`



44
45
46

# File 'lib/transformers/models/xlm_roberta/tokenization_xlm_roberta_fast.rb', line 44

def can_save_slow_tokenizer
  @vocab_file ? File.exist?(@vocab_file) : false
end

#create_token_type_ids_from_sequences(token_ids_0, token_ids_1: nil) ⇒ `Object`

# File 'lib/transformers/models/xlm_roberta/tokenization_xlm_roberta_fast.rb', line 57

def create_token_type_ids_from_sequences(token_ids_0, token_ids_1: nil)
  sep = [@sep_token_id]
  cls = [@cls_token_id]

  if token_ids_1.nil?
    return (cls + token_ids_0 + sep).length * [0]
  end
  (cls + token_ids_0 + sep + sep + token_ids_1 + sep).length * [0]
end

Class: Transformers::XlmRoberta::XLMRobertaTokenizerFast

Constant Summary collapse

Constants included from SpecialTokensMixin

Instance Attribute Summary

Attributes inherited from PreTrainedTokenizerBase

Instance Method Summary collapse

Methods inherited from PreTrainedTokenizerFast

Methods inherited from PreTrainedTokenizerBase

Methods included from ClassAttribute

Methods included from SpecialTokensMixin

Constructor Details

#initialize(vocab_file: nil, tokenizer_file: nil, bos_token: "<s>", eos_token: "</s>", sep_token: "</s>", cls_token: "<s>", unk_token: "<unk>", pad_token: "<pad>", mask_token: "<mask>", **kwargs) ⇒ XLMRobertaTokenizerFast

Instance Method Details

#build_inputs_with_special_tokens(token_ids_0, token_ids_1: nil) ⇒ Object

#can_save_slow_tokenizer ⇒ Object

#create_token_type_ids_from_sequences(token_ids_0, token_ids_1: nil) ⇒ Object

#initialize(vocab_file: nil, tokenizer_file: nil, bos_token: "<s>", eos_token: "</s>", sep_token: "</s>", cls_token: "<s>", unk_token: "<unk>", pad_token: "<pad>", mask_token: "<mask>", **kwargs) ⇒ `XLMRobertaTokenizerFast`

#build_inputs_with_special_tokens(token_ids_0, token_ids_1: nil) ⇒ `Object`

#can_save_slow_tokenizer ⇒ `Object`

#create_token_type_ids_from_sequences(token_ids_0, token_ids_1: nil) ⇒ `Object`