Class: OpenaiEmbeddingCreator

Inherits:

Object

Object
OpenaiEmbeddingCreator

show all

Defined in:: lib/embedding_engines/openai_embeddings.rb

Instance Method Summary collapse

#call(text, pages_mode = true) ⇒ Object
#initialize(api_key = nil, chunker = BasicTextChunker.new, model = "text-embedding-ada-002") ⇒ OpenaiEmbeddingCreator constructor

A new instance of OpenaiEmbeddingCreator.

Constructor Details

#initialize(api_key = nil, chunker = BasicTextChunker.new, model = "text-embedding-ada-002") ⇒ `OpenaiEmbeddingCreator`

Returns a new instance of OpenaiEmbeddingCreator.

# File 'lib/embedding_engines/openai_embeddings.rb', line 8

def initialize(api_key = nil, chunker = BasicTextChunker.new, model = "text-embedding-ada-002")
  @chunker = chunker
  @model = model
  @api_key = api_key || ENV['OPENAI_API_KEY']
  raise 'API key not found. Please set the OPENAI_API_KEY environment variable.' if api_key.nil? || api_key.empty?

  if @api_key
    @llm = OpenAI::Client.new(access_token: @api_key)
  else
    Rails.logger.error "OpenAI API key not provided. Set the OPENAI_API_KEY in the ENV variables or pass it as an argument."
  end
end

Instance Method Details

#call(text, pages_mode = true) ⇒ `Object`

# File 'lib/embedding_engines/openai_embeddings.rb', line 21

def call(text, pages_mode=true)

  if pages_mode
    vectors = []
    return [] unless @llm  # Return empty if the API client isn't set up

    # Divide the text into chunks for each page
    text.each_with_index do |page_content, page_index|
      chunks = @chunker.split_into_chunks(page_content)

      # Create embeddings for each chunk
      chunks.each_with_index do |chunk, index|
        response = @llm.embeddings(
          parameters: {
            model: @model,
            input: chunk
          }
        )

        # Extract the embeddings from the response
        embedding = response['data'][0]['embedding']

        # Create vector data for the chunk and keep page numbers for reference
        vector_data = {
          id: "vec #{index + 1}",
          values: embedding,
          metadata: {
              text: chunk,
              page: page_index + 1,
          }
        }
        # storing each chunk vector data in an array
        vectors << vector_data
      end
    end
    vectors
  else
    response = @llm.embeddings(
      parameters: {
        model: @model,
        input: chunk
      }
    )
    # Extract the embeddings from the response
    response['data'][0]['embedding']
  end
end

Class: OpenaiEmbeddingCreator

Instance Method Summary collapse

Constructor Details

#initialize(api_key = nil, chunker = BasicTextChunker.new, model = "text-embedding-ada-002") ⇒ OpenaiEmbeddingCreator

Instance Method Details

#call(text, pages_mode = true) ⇒ Object

#initialize(api_key = nil, chunker = BasicTextChunker.new, model = "text-embedding-ada-002") ⇒ `OpenaiEmbeddingCreator`

#call(text, pages_mode = true) ⇒ `Object`