Class: StreamRunner

Inherits:

Object

Object
StreamRunner

Defined in:: lib/stream_runner.rb

Instance Method Summary collapse

Instance Method Details

#expand_path(file) ⇒ `Object`

# File 'lib/stream_runner.rb', line 31

def expand_path(file)
  return file if File.exist?(file)
  rlib = ENV['RUBYLIB'] || File.dirname(__FILE__)
  raise "Cannot resolve path to #{file} -- no RUBYLIB" unless rlib
  (rlib.split(':') + [File.dirname(__FILE__)]).each do |rp|
    trial = "#{rp}/#{file}"
    return trial if File.exists?(trial)
  end
  raise "Cannot resolve path to #{file}. Is it in RUBYLIB?"
end

#expand_paths(extra) ⇒ `Object`

# File 'lib/stream_runner.rb', line 41

def expand_paths(extra)
  extras = []
  extra.collect { |e| expand_path(e)}
end

#run_hadoop_stream(input, out, mapper, reducer, reducers, extra, map_opts, reduce_opts, opts) ⇒ `Object`

# File 'lib/stream_runner.rb', line 46

def run_hadoop_stream(input, out, mapper, reducer, reducers, extra, 
  map_opts, reduce_opts, opts)
  extras = ''
  extra << mapper.split(' ')[0]
  extra << reducer.split(' ')[0]
  expand_paths(extra.uniq).each {|e| extras += "-file #{e} "}
  map_opt = ''
  map_opts.each {|n, v| map_opt += "-jobconf #{n}=#{v} "}
  reduce_opt = ''
  reduce_opts.each {|n, v| reduce_opt += "-jobconf #{n}=#{v} "}
  if input.class == Array
    input = input.collect {|i| "-input #{i}"}.join(" ")
  else
    input = "-input #{input}"
  end

  if reducer.nil?
    cmd = "hadoop jar #{HADOOP_STREAMING} " +
      "#{input} " +
	"-output NONE " +
	"-mapper \"ruby #{mapper}\"" +
      "-jobconf mapred.reduce.tasks=0 " +
	map_opt +
      "#{extras}"
  else
    cmd = "hadoop jar #{HADOOP_STREAMING} " +
      "#{input} " +
	"-output #{out} " +
	"-mapper \"ruby #{mapper}\" " +
	map_opt +
	"-reducer \"ruby #{reducer}\" " +
      "-jobconf mapred.reduce.tasks=#{reducers} " +
	reduce_opt +
      "#{extras}"
  end
  cmd += " -verbose " if opts.has_key?(:verbose)
  cmd += " #{opts[:hadoop_opts]}" if opts.has_key?(:hadoop_opts)
  puts cmd if opts.has_key?(:verbose)
  system(cmd)
end

#run_map_reduce(input, out, map, reduce, reducers, extra, map_opts = {}, reduce_opts = {}, opts = {}) ⇒ `Object`

# File 'lib/stream_runner.rb', line 87

def run_map_reduce(input, out, map, reduce, reducers, extra, 
  map_opts = {}, reduce_opts = {}, opts = {})
  system("hadoop fs -rmr #{out}")
  system("rm -rf out/#{out}")
  system("mkdir -p out/#{out}")
  run_hadoop_stream(input, out, map, reduce, reducers, extra, 
    map_opts, reduce_opts, opts)
  (0..reducers-1).each do |i|
    n = sprintf("%05d", i)
    system("hadoop fs -cat #{out}/part-#{n} >out/#{out}/part-#{n}")
  end
end

Class: StreamRunner

Instance Method Summary collapse

Instance Method Details

#expand_path(file) ⇒ Object

#expand_paths(extra) ⇒ Object

#run_hadoop_stream(input, out, mapper, reducer, reducers, extra, map_opts, reduce_opts, opts) ⇒ Object

#run_map_reduce(input, out, map, reduce, reducers, extra, map_opts = {}, reduce_opts = {}, opts = {}) ⇒ Object

#expand_path(file) ⇒ `Object`

#expand_paths(extra) ⇒ `Object`

#run_hadoop_stream(input, out, mapper, reducer, reducers, extra, map_opts, reduce_opts, opts) ⇒ `Object`

#run_map_reduce(input, out, map, reduce, reducers, extra, map_opts = {}, reduce_opts = {}, opts = {}) ⇒ `Object`