Module: BioPangenome

Defined in:: lib/bio-pangenome/pangenome.rb

Defined Under Namespace

Classes: GeneFlankingRegion, Transcript

Class Method Summary collapse

Class Method Details

.align_gene_groups(seqs: {}, tmp_folder: "/Volumes/PanGenome/GeneRegions/201910_v2_v3/tmp", output: "../pairwise_blast_oct_2019/varieties_6A_identites", distance: 0) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 103

def self.align_gene_groups( seqs:{}, tmp_folder:"/Volumes/PanGenome/GeneRegions/201910_v2_v3/tmp", output:"../pairwise_blast_oct_2019/varieties_6A_identites", distance: 0 )
  out_tmp="#{tmp_folder}/out.blast"
  FileUtils.mkdir_p(tmp_folder)
  out = File.open("#{output}_#{distance}bp.tab", "w")
  out.puts [ "transcript" , "query", "subject" ,  "var_query", "var_subject", "aln_type", "length" , "pident" , "Ns_query", "Ns_subject", "Ns_total", "Flanking"   ].join("\t")
  seqs.each_pair do |transcript, transcript_seqs|
    vars = transcript_seqs.keys
    vars_done = []
    ns = {}
    vars.each do |v1|
      tmp =  tmp_folder  + "/" + v1 + ".fa"
      s = transcript_seqs[v1]
      seq = ">#{s.id}\n#{s.sequence}"
      File.open(tmp, 'w') {|f| f.write(seq) }
      ns[v1] = s.sequence.count('Nn')
    end
    vars.each do |v1|
      tmp1 =  tmp_folder  + "/" + v1 + ".fa"
      s1 = transcript_seqs[v1]
      next unless s1.sequence.length > 0
      vars.each do |v2|
        next if v1 == v2
        next if vars_done.include? v2
        s2 = transcript_seqs[v2]
        next unless s2.sequence.length > 0
        tmp2 =  tmp_folder  + "/" + v2 + ".fa"
        to_print = [transcript, s1.id , s2.id , v1,v2,"#{v1}->#{v2}"]
        to_print << blast_pair_fast(tmp1, tmp2, out_tmp) 
        to_print << ns[v1] 
        to_print << ns[v2]
        to_print << ns[v1] + ns[v2]
        to_print << distance
        out.puts to_print.join("\t")
      end
      vars_done << v1
    end
  end
  out.close
end

.blast_pair_fast(path_a, path_b, out_path, program: "blastn") ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 58

def self.blast_pair_fast(path_a, path_b, out_path, program: "blastn")
  cmd = "#{program} -query #{path_a} -subject #{path_b} -task #{program} -out #{out_path} -outfmt '5' "
  system cmd
  n = Bio::BlastXMLParser::XmlIterator.new(out_path).to_enum
  max_length = 0
  max_pident = 0.0
  n.each do | iter |
    iter.each do | hit |
      hit.each do | hsp |
        if hsp.align_len > max_length
          max_length = hsp.align_len
          max_pident = 100 * hsp.identity.to_f / hsp.align_len.to_f
        end
      end
    end
  end
  [max_length, max_pident]
end

.load_cds_sequences(varieties: [], genes: {}, prefix: "../flanking/filtered/", suffix: ".cds.fa.gz", set_id: "cds") ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 143

def self.load_cds_sequences( varieties:[], genes:{}, prefix: "../flanking/filtered/",  suffix: ".cds.fa.gz", set_id: "cds" )
  ret = Hash.new { |h, k| h[k] = Hash.new }
  varieties.each do |variety|
    path = "#{prefix}/#{variety}#{suffix}"
    infile = open(path)
    io = Zlib::GzipReader.new(infile) 
    Bio::FlatFile.open(Bio::FastaFormat, io) do |fasta_file|
      fasta_file.each do |entry|
        arr = entry.definition.split(".")
        next unless genes[arr[0]]
        row = genes[arr[0]]
        seq_name = GeneFlankingRegion.new(entry.definition,
          row["gene"], "",
          "", entry.definition, set_id, nil, variety )
        seq = entry.seq
        seq.gsub!(/N*$/, '')
        seq.gsub!(/^N*/, '')
        seq_name.sequence = seq
        base_gene = seq_name.gene
        ret[base_gene][variety] = seq_name unless ret[base_gene][variety]
      end
    end
    io.close
  end
  ret
end

.load_genes(filename, window: 0, no_windows: 0) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 182

def self.load_genes(filename, window: 0, no_windows: 0)
  genes = File.readlines(filename).map do |t|
    t.chomp!.split(".")[0]
  end
  if no_windows > 0
    puts "'loading window #{window} of #{no_windows}'"
    window_size = genes.size/no_windows
    start = window * window_size
    genes = genes[start, window_size]
  end
  genes
end

.load_lines(filename) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 195

def self.load_lines(filename)
  File.readlines(filename).map do |t|
    t.chomp!.rstrip
  end
end

.load_mapping_hash(varieties: [], transcripts: [], genes: [], distance: 1000, prefix: "../flanking/releasePGSBV1/", suffix: ".RefSeqv1.1") ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 38

def self.load_mapping_hash(varieties:[],  transcripts:[], genes:[], distance: 1000, prefix: "../flanking/releasePGSBV1/",  suffix: ".RefSeqv1.1")
  ret = Hash.new { |h, k| h[k] = Hash.new }
  varieties.each do |v|
    path = "#{prefix}#{distance}bp/#{v}_#{distance}bp_#{suffix}.reg.map"
    $stderr.puts path
    File.foreach(path) do |line|
      line.chomp!
      arr = line.split("\t")
      begin
        parsed = parseSequenceName(arr[0], arr[1])
      rescue Exception => e
        throw "Unable to parse #{line} (#{v}) [#{e.to_s}]" 
      end
      next unless transcripts.include? parsed.transcript or genes.include? parsed.gene
      ret[v][parsed.region] = parsed
    end
  end
  ret
end

.load_projected_genes(transcript_mapping, genes: []) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 170

def self.load_projected_genes(transcript_mapping, genes:[])
  projected_genes = {}
  Zlib::GzipReader.open(transcript_mapping) do |gzip|
    csv = CSV.new(gzip, headers: true)
    csv.each do |row|
      next unless genes.include? row["gene"]
      projected_genes[row["projected_gene"]] = row
    end
  end
  projected_genes
end

.load_sequences_from_hash(coordinates: {}, prefix: "../flanking/filtered/", suffix: "RefSeqv1.1", distance: 1000, projected_genes: {}) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 78

def self.load_sequences_from_hash(coordinates:{},  prefix: "../flanking/filtered/",  suffix: "RefSeqv1.1", distance: 1000, projected_genes: {})
  ret = Hash.new { |h, k| h[k] = Hash.new }
  coordinates.each_pair do |variety, coords|

    path = "#{prefix}/#{distance}bp/#{variety}_#{distance}bp_#{suffix}.fa.gz"
    puts "Loading: #{path}"
    infile = open(path)
    io = Zlib::GzipReader.new(infile) 
    Bio::FlatFile.open(Bio::FastaFormat, io) do |fasta_file|
      fasta_file.each do |entry|
        next unless coords[entry.definition]
        seq_name = coords[entry.definition]
        seq = entry.seq
        seq.gsub!(/N*$/, '')
        seq.gsub!(/^N*/, '')
        seq_name.sequence = seq
        base_gene = projected_genes[seq_name.gene]["gene"]
        ret[base_gene][variety] = seq_name unless ret[base_gene][variety]
      end
    end
    io.close
  end
  ret
end

.parseEITranscript(name) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 18

def self.parseEITranscript name
  arr=name.split(".")
  match = /Traes(?<chr>[[:upper:]]{3}_scaffold_[[:digit:]]*)_(?<ver>[[:digit:]]{2})G(?<count>[[:digit:]]+)(?<conf>[[:upper:]]*)/.match arr[0]
  raise "Unable to parse: #{name}" unless match
  Transcript.new(name, arr[0],match[:chr].downcase,match[:ver],match[:count],arr[1],match[:conf], match[:count].to_i, arr[1])
end

.parsePGSBTranscript(name) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 25

def self.parsePGSBTranscript name
  arr=name.split(".")
  match = /Traes(?<variety>[[:upper:]]{3})(?<chr>[[:alnum:]]{1,2})(?<ver>[[:digit:]]{2})G(?<count>[[:digit:]]+)(?<conf>[[:upper:]]*)/.match arr[0]

  raise "Unable to parse: #{name}" unless match
  Transcript.new(name, arr[0],match[:chr],match[:ver],match[:count],match[:variety], match[:conf],match[:count].to_i, arr[1])
end

.parseSequenceName(region, name) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 32

def self.parseSequenceName region, name
  match = /(?<transcript>[[:alnum:]].+)_(?<ann>.+)_(?<flank_length>[[:digit:]]+bp)/.match name
  arr2=match[:transcript].split "."
  GeneFlankingRegion.new(match[:transcript],arr2[0],match[:ann], region, name, match[:flank_length] , nil, nil)
end

.parseTranscript(name) ⇒ `Object`

# File 'lib/bio-pangenome/pangenome.rb', line 12

def self.parseTranscript name
  arr=name.split(".")
  match = /TraesCS(?<chr>[[:alnum:]]{1,2})(?<ver>[[:digit:]]{2})G(?<count>[[:digit:]]+)(?<conf>[[:upper:]]*)/.match arr[0]
  raise "Unable to parse: #{name}" unless match
  Transcript.new(name, arr[0],match[:chr],match[:ver],match[:count],arr[1],match[:conf], match[:count].to_i, arr[1])
end

Module: BioPangenome

Defined Under Namespace

Class Method Summary collapse

Class Method Details

.align_gene_groups(seqs: {}, tmp_folder: "/Volumes/PanGenome/GeneRegions/201910_v2_v3/tmp", output: "../pairwise_blast_oct_2019/varieties_6A_identites", distance: 0) ⇒ Object

.blast_pair_fast(path_a, path_b, out_path, program: "blastn") ⇒ Object

.load_cds_sequences(varieties: [], genes: {}, prefix: "../flanking/filtered/", suffix: ".cds.fa.gz", set_id: "cds") ⇒ Object

.load_genes(filename, window: 0, no_windows: 0) ⇒ Object

.load_lines(filename) ⇒ Object

.load_mapping_hash(varieties: [], transcripts: [], genes: [], distance: 1000, prefix: "../flanking/releasePGSBV1/", suffix: ".RefSeqv1.1") ⇒ Object

.load_projected_genes(transcript_mapping, genes: []) ⇒ Object

.load_sequences_from_hash(coordinates: {}, prefix: "../flanking/filtered/", suffix: "RefSeqv1.1", distance: 1000, projected_genes: {}) ⇒ Object

.parseEITranscript(name) ⇒ Object

.parsePGSBTranscript(name) ⇒ Object

.parseSequenceName(region, name) ⇒ Object

.parseTranscript(name) ⇒ Object

.align_gene_groups(seqs: {}, tmp_folder: "/Volumes/PanGenome/GeneRegions/201910_v2_v3/tmp", output: "../pairwise_blast_oct_2019/varieties_6A_identites", distance: 0) ⇒ `Object`

.blast_pair_fast(path_a, path_b, out_path, program: "blastn") ⇒ `Object`

.load_cds_sequences(varieties: [], genes: {}, prefix: "../flanking/filtered/", suffix: ".cds.fa.gz", set_id: "cds") ⇒ `Object`

.load_genes(filename, window: 0, no_windows: 0) ⇒ `Object`

.load_lines(filename) ⇒ `Object`

.load_mapping_hash(varieties: [], transcripts: [], genes: [], distance: 1000, prefix: "../flanking/releasePGSBV1/", suffix: ".RefSeqv1.1") ⇒ `Object`

.load_projected_genes(transcript_mapping, genes: []) ⇒ `Object`

.load_sequences_from_hash(coordinates: {}, prefix: "../flanking/filtered/", suffix: "RefSeqv1.1", distance: 1000, projected_genes: {}) ⇒ `Object`

.parseEITranscript(name) ⇒ `Object`

.parsePGSBTranscript(name) ⇒ `Object`

.parseSequenceName(region, name) ⇒ `Object`

.parseTranscript(name) ⇒ `Object`