Class: Html2rss::HtmlExtractor::ImageExtractor

Inherits:

Object

Object
Html2rss::HtmlExtractor::ImageExtractor

show all

Defined in:: lib/html2rss/html_extractor/image_extractor.rb

Overview

Image is responsible for extracting image URLs the article_tag.

Class Method Summary collapse

.call(article_tag, base_url:) ⇒ Object
.from_img(article_tag) ⇒ Object
.from_source(article_tag) ⇒ Object
Extracts the largest image source from the srcset attribute of an img tag or a source tag inside a picture tag.
.from_style(article_tag) ⇒ Object

Class Method Details

.call(article_tag, base_url:) ⇒ `Object`

# File 'lib/html2rss/html_extractor/image_extractor.rb', line 8

def self.call(article_tag, base_url:)
  img_src = from_source(article_tag) ||
            from_img(article_tag) ||
            from_style(article_tag)

  Url.from_relative(img_src, base_url) if img_src
end

.from_img(article_tag) ⇒ `Object`



16
17
18

# File 'lib/html2rss/html_extractor/image_extractor.rb', line 16

def self.from_img(article_tag)
  article_tag.at_css('img[src]:not([src^="data"])')&.[]('src')
end

.from_source(article_tag) ⇒ `Object`

Extracts the largest image source from the srcset attribute of an img tag or a source tag inside a picture tag.

See Also:

# File 'lib/html2rss/html_extractor/image_extractor.rb', line 27

def self.from_source(article_tag) # rubocop:disable Metrics/AbcSize
  hash = article_tag.css('img[srcset], picture > source[srcset]').flat_map do |source|
    source['srcset'].to_s.scan(/(\S+)\s+(\d+w|\d+h)[\s,]?/).map do |url, width|
      next if url.nil? || url.start_with?('data:')

      width_value = width.to_i.zero? ? 0 : width.scan(/\d+/).first.to_i

      [width_value, url.strip]
    end
  end.compact.to_h

  hash[hash.keys.max]
end

.from_style(article_tag) ⇒ `Object`

# File 'lib/html2rss/html_extractor/image_extractor.rb', line 41

def self.from_style(article_tag)
  article_tag.css('[style*="url"]')
             .filter_map { |tag| tag['style'][/url\(['"]?(.*?)['"]?\)/, 1] }
             .reject { |src| src.start_with?('data:') }
             .max_by(&:size)
end

Class: Html2rss::HtmlExtractor::ImageExtractor

Overview

Class Method Summary collapse

Class Method Details

.call(article_tag, base_url:) ⇒ Object

.from_img(article_tag) ⇒ Object

.from_source(article_tag) ⇒ Object

.from_style(article_tag) ⇒ Object

.call(article_tag, base_url:) ⇒ `Object`

.from_img(article_tag) ⇒ `Object`

.from_source(article_tag) ⇒ `Object`

.from_style(article_tag) ⇒ `Object`