Platform for Drug Discovery


[日本語]  

Ray, GC_coverage_length plot, blastx Uniport and blastn NR (PE)


Introduction


    This pipeline is useful for the researcher who deal with species without reference genome. It will takes a few days to finish whole analysis for the 240 million 50 bp paired-end data.


    このパイプラインは、ターゲットのゲノム配列が未知であり、新規にゲノム配列を決定するところから解析する場合に用います。Rayによるde novoアセンブルを行った後、bowtieによってリードをコンティグにマッピングし、カバレッジを算出します。さらにAugustusによる遺伝子予測や、Uniprotに対するblastx、NRに対するblastnを行い、各コンティグに遺伝子アノテーションを付与します。


    Input formatFASTQ
    Library layoutFor paired-end read only
    Execution timeAbout a few days

    Results
    • Uniprot, NRアノテーション付きコンティグ表
    • カバレッジ-コンティグ長plot ...etc.
      Image
      カバレッジ-コンティグ長plot

Table of contents

Inputs


    ・ファイルはペアエンドのFASTQファイルを1~10サンプルまで入力可能です。
    ・FASTQファイルの合計がおよそ50GB以下、もしくはゲノムサイズが100Mbase以下であれば、経験的には当サーバで解析可能ですが、アセンブルに必要なメモリーを見積もることは難しいため、事前に判定などは行っておりません。
    スペース「 」や、カッコ「(」、クオーテーション「'」などといった文字や日本語は使えません。アルファベット+数字+アンダーバー「_」で名前を付けてください。
    ペアエンドの場合、フォワード側は「xxx_1.fastq」、「xxx_1.fq」、「xxx_1.txt」、「xxx_1_sequence.txt」、「xxx_R1_yyy.fastq」などとなっている必要があり、リバース側は「xxx_2.fastq」、・・・となっている必要があります。
    (例:my_sample_1.fastq, my_sample_2.fastq)

    ・FASTQについては、このページをご覧ください。

Outputs


    実行例1
    Image
    1. Uniprot, NRアノテーション付きコンティグ表
    Image
    コンティグ一覧と、Blastによるアノテーション付きテーブル(tsvファイル(Excelにて閲覧可能))
    2. 遺伝子予測結果
    Image
    Augustusによる遺伝子予測結果 (gff形式)
    3. カバレッジ-コンティグ長plot
    Image
    アセンブルされたコンティグの発現量を2群間で比較

How to run this pipeline


Result explanation


Comments


Use case

  • Example1: 各76 bp・100万ペアエンドリード(ERX011194, ERX11195, ERX11197)3組を入力とし、アセンブル、アノテーションを行った。

Related information