Class: OpenTox::Parser::Spreadsheets

Inherits:

Object

Object
OpenTox::Parser::Spreadsheets

show all

Defined in:: lib/parser.rb

Overview

Parser for getting spreadsheet data into a dataset

Instance Attribute Summary collapse

#dataset ⇒ Object

Returns the value of attribute dataset.

Instance Method Summary collapse

#detect_new_values(row, value_maps) ⇒ Object
#initialize ⇒ Spreadsheets constructor

A new instance of Spreadsheets.
#load_csv(csv, drop_missing = false, all_numeric = false) ⇒ OpenTox::Dataset

Load CSV string (format specification: toxcreate.org/help).
#load_spreadsheet(book, drop_missing = false) ⇒ OpenTox::Dataset

Load Spreadsheet book (created with roo gem roo.rubyforge.org/, excel format specification: toxcreate.org/help).

Constructor Details

#initialize ⇒ `Spreadsheets`

Returns a new instance of Spreadsheets.

# File 'lib/parser.rb', line 288

def initialize
  @data = []
  @features = []
  @feature_types = {}

  @format_errors = []
  @id_errors = []
  @activity_errors = []
  @duplicates = {}
  @max_class_values = 3
end

Instance Attribute Details

#dataset ⇒ `Object`

Returns the value of attribute dataset.



286
287
288

# File 'lib/parser.rb', line 286

def dataset
  @dataset
end

Instance Method Details

#detect_new_values(row, value_maps) ⇒ `Object`

# File 'lib/parser.rb', line 300

def detect_new_values(row, value_maps)
  row.shift
  row.each_index do |i|
    value = row[i]
    value_maps[i] = Hash.new if value_maps[i].nil?
    value_maps[i][value].nil? ? value_maps[i][value]=0 : value_maps[i][value] += 1
  end
  value_maps
end

#load_csv(csv, drop_missing = false, all_numeric = false) ⇒ `OpenTox::Dataset`

Load CSV string (format specification: toxcreate.org/help)

Parameters:

csv (String) —

CSV representation of the dataset
drop_missing (Boolean) (defaults to: false) —

Whether completely missing rows should be droppped
all_numeric (Boolean) (defaults to: false) —

Whether all features should be treated as numeric
del_nominal (Boolean) —

All nominal features will be removed

Returns:

(OpenTox::Dataset) —

Dataset object with CSV data

# File 'lib/parser.rb', line 356

def load_csv(csv, drop_missing=false, all_numeric=false)
  row = 0
  input = csv.split("\n")
  headers = split_row(input.shift)
  headers.collect! {|header| header.to_s.gsub(/[\/.\\\(\)\{\}\[\]]/,"_")}
  add_features(headers)
  value_maps = Array.new
  regression_features=Array.new

  input.each { |row| 
    row = split_row(row)
    value_maps = detect_new_values(row, value_maps)
    value_maps.each_with_index { |vm,j|
      if (vm.size > @max_class_values) || all_numeric # max @max_class_values classes.
        regression_features[j]=true 
      else
        regression_features[j]=false
      end
    }
  }

  input.each_with_index { |row, i| 
    drop=false
    row = split_row(row)
    raise "Entry has size #{row.size}, different from headers (#{headers.size})" if row.size != headers.size
    if row.include?("")
      @format_errors << "Row #{i} has #{row.count("")} missing values" 
      drop=true
      drop_missing=true if (row.count("") == row.size-1) 
    end
    add_values(row, regression_features) unless (drop_missing && drop)
    if (drop_missing && drop) 
      @format_errors << "Row #{i} not added" 
    end
  }
  warnings
  @dataset
end

#load_spreadsheet(book, drop_missing = false) ⇒ `OpenTox::Dataset`

Load Spreadsheet book (created with roo gem roo.rubyforge.org/, excel format specification: toxcreate.org/help)