Loading...
 
印刷

rSeq解析フロー


rSeq解析フロー


ヒトゲノム(hg19)を用いて解析する場合の手順を説明します。
詳しくは開発者の説明ページ(external link)をご覧下さい

rSeq解析の手順


1. UCSCよりrefFlat(hg19の遺伝子座標)ファイル(external link)を取得
2. UCSCよりヒトゲノム(hg19)(external link)を取得
3. chrfilelist.txtに上記でダウンロードした染色体ファイルのパスを1ファイル1行で記載
YOUR_PATH/chr1.fa
YOUR_PATH/chr2.fa

4. rSeqのrseq gen_transを用いてrefFlat.txtに記載の配列情報を作成(refFlat.txt.faが出力ファイル)
rseq gen_trans refFlat.txt chrfilelist.txt

5. seqmapを用いてクエリー配列(fasta型式)と4で作成したrefFlat.txt.fa配列をアライメント
※fasta型式の>で始まる行に空白文字(スペース、タブなど)含む場合はエラーとなる
seqmap 1 your_query.fa refFlat.txt.fa result.map /eland:3

6. rSeqのcomp_expを用いて遺伝子ごとのRPKM値とタグ数を算出
(出力ファイル:result.map.1.gene.exp)
rseq comp_exp -r 36 -n 1 refFlat.txt.fa result.map


A. seqmapのコマンド使用方法は引数を与えずseqmapを実行すると使い方が表示される
SeqMap: Short Sequence Mapping Tool

Usage: seqmap <number of mismatches> <probe FASTA file name> <transcript FASTA file name>
SeqMap: Short Sequence Mapping Tool

Usage: seqmap <number of mismatches> <probe FASTA file name> <transcript FASTA file name> <output file name> [options]

parameters/Options: (* for advanced users only)
<number of mismatches>                          maximum edit distance allowed
<probe FASTA file name>                         probe/tag/read sequences
<transcript FASTA file name>                    reference sequences
<output file name>                              name of the output file
[/eland[:style]]                                output in eland style
[/ion]                                          output in ion style
[/output_top_matches:num_top_matches]           output the top
                                                 "num_top_matches" targets
[/forward_strand]                               search forward strand only
[/allow_insdel:num_insdel]                      enable insertion and deletion
[/cut:start,end]                                cut the probes
[/match_shorter_probes]                         match shorter probes
[/skip_N]                                       skip probes that have N or .
[/no_repeats]                                   do not search repeat regions
[/silent]                                       disable debug information
[/available_memory:memory_size(in MB)]          disable memory detection and
                                                 set memory size manually
[/zero_indexed]                                 output coordinates in
                                                 0-indexed manner
[/output_all_matches]                           output all matches
[/exact_mismatch]                               output targets with
                                                 exact number of mismatches only
[/min_match:len]                                mininum length of match
[/score:match,sub,ins,del]                      score for local alignment
*[/output_alignment]                            output alignment
*[/output_statistics]                           output in probe order
*[/do_not_output_probe_without_match]           ignore non-matched probes
*[/use_hash]                                    use hash if possible
*[/no_hash_1bp_mismatch]                        do not use hash for 1bp search
*[/limit_num_part:max_num_part]                 maximum number of parts that
                                                 a probe is splitted
*[/interpolation_search]                        use interpolation search
                                                 ,not binary search
*[/shift_mask]                                  may reduce memory usage
                                                 while increase running time
*[/no_store_key]                                may reduce memory usage
                                                 while increase running time
*[/no_fast_index]                               may reduce memory usage
                                                 while increase running time
*[/fast_index_fraction:fraction]
*[/no_filter_results]
*[/filter_selected_probes:selected_probes_file] remove the probes in file
*[/output_filtered_probes]                      output the filtered probes
*[/filter_low_quality_probes]                   filter low quality probes



B. rseqのコマンド仕様方法は引数を与えずrseqを実行すると使い方が表示される
% rseq
Usage: rseq <TASK> [OPTION] ... [FILE] ...
rSeq: RNA-Seq Analyzer.

OPTIONs:
  -r, --read_length READ_LENGTH (default is 25)
  -n, --num_mismatch NUM_MISMATCH (default is 2)
  -v, --version VERSION (default is 1)
     1: work with transcripts
     2: work with exons and junctions, combine consecutive exons

TASKs, OPTIONs and FILEs:
  gen_trans refFlat.txt chrfilelist.txt
  gen_exons_junctions <-v 2> [-r] refFlat.txt chrfilelist.txt
  comp_exp [-r] [-n] refFlat.txt.fa eland.multi.out
  comp_exp <-v 2> [-r] [-n] subexons.txt eland.multi.out
  paired_end <-v 2> [-r] [-n] subexons.txt eland.multi.out.1 eland.multi.out.2


出力ファイルの見方

列番号項目名説明
1name遺伝子名
2ucountUniqヒットリード数
3countUniqヒットと重みづけしたMultiリードの総数
4ratioUniqヒットリード率(列番号2/列番号3)
5totalマップされた総タグ数
6len遺伝子配列長-リード長
7exp発現量(RPKM値)
8lower発現量の95%信頼の下限値
9upper発現量の95%信頼の上限値
10reduced_len内部利用


CPU使用状況、メモリ使用状況の情報

  • Image
    • 2サンプルを互い違いに流した場合の実行時間です。
    • リード数は合計560million readsです。マッピング時にマルチスレッド指定していませんので1CPU使用。
    • seqmap時に、当該計算機の最大メモリ容量を指定しています。
    • 図から分かる点としては転写物配列へのマッピング(seqmap)が率速であり、メモリ使用はオプションで指定したものを最大限に使用しています。複数同時実行する場合は、最大メモリ使用量の指定を実行数で割らないと、メモリ枯渇でエラーが発生します。

Last edited by nobfujii , based on work by nomonma .
Page last modified on 木曜日 25 of October, 2012 15:41:53 JST.