Platform for Drug Discovery


Annotation after assembling (PE)


Introduction


    このパイプラインは、アセンブル後のコンティグに対して、各種アノテーションを行います。遺伝子アノテーションとしては、Repeat Maskerによる重複配列のマスキング、Augustusによる遺伝子予測、およびUniprotに対するblastx、NRに対するblastnを行います。また、MUMmerによるドットプロットを作成し、コンティグのリピート配列を確認したり、PSMCというツールによって、対象生物の過去の集団サイズを推定します。また、各コンティグのカバレッジと、コンティグ長のグラフを作成し、共生細菌などの混入がないか確認できます。


    Input formatFASTQ, FASTA, RepeatMasker library
    Library layoutFor paired-end read only
    Execution timeAbout a few days


    Results
    Image
    Uniprot, NRアノテーション付きコンティグ表
    Image
    集団サイズの推移

Table of contents

Inputs


    ・ファイルはペアエンドのFASTQファイルと、アセンブルされたゲノム配列(FASTA形式)が必要です。また、オプションとして、Repbaseからrepeatmaskerlibraries-201xxxxx.tar.gzをダウンロードし、その中の「RepeatMaskerLib.embl」ファイルを入力すると、完全なRepeatMaskerの機能が使用できます。
    スペース「 」や、カッコ「(」、クオーテーション「'」などといった文字や日本語は使えません。アルファベット+数字+アンダーバー「_」で名前を付けてください。
    ペアエンドの場合、フォワード側は「xxx_1.fastq」、「xxx_1.fq」、「xxx_1.txt」、「xxx_1_sequence.txt」、「xxx_R1_yyy.fastq」などとなっている必要があり、リバース側は「xxx_2.fastq」、・・・となっている必要があります。
    (例:my_sample_1.fastq, my_sample_2.fastq)

    ・FASTQについては、このページをご覧ください。

Outputs


    実行例1
    Image
    1. RepeatMaskerによる重複配列の除去結果
    Image
    2. AUGUSTUSによる遺伝子領域予測
    Image
    Augustusによる遺伝子予測結果 (gff形式)
    3. Uniprot, NRアノテーション付きコンティグ表
    Image
    コンティグ一覧と、Blastによるアノテーション付きテーブル(tsvファイル(Excelにて閲覧可能))
    4. ドットプロット
    Image
    5. SNV, ショートINDEL一覧
    Image
    6. 過去の集団サイズ推定
    Image
    7. カバレッジ-コンティグ長plot
    Image


How to run this pipeline


    このパイプラインは、アセンブル結果のFASTAファイルと、アセンブルに用いたFASTQファイルの全て、もしくは一部があれば動作しますが、RepeatMaskerによるリピート配列の探索を完全に行うには、Repbaseから「repeatmaskerlibraries-201xxxxx.tar.gz」という名前のファイルをダウンロードし、その中の「RepeatMaskerLib.embl」というファイルを併せて入力する必要があります。
    Image
    Image

Result explanation


    • 本パイプラインを実行しますと、上記の実行例のようなヒストリーが得られます。
    実行例の「1」の出力は、RepeatMaskerの実行結果です。その中の「contigs.masked.fasta」は、重複配列が小文字に変換されたFASTAファイルです。また、どの程度重複配列が存在したのかは、「contigs.tbl」ファイルに記述されています。
    Image

    • 実行例の「2」の出力は、AUGUSTUSによって予測された遺伝子領域がGFF形式で出力されています。このGFFファイルと、入力に用いたFASTAファイルを用いてIGVなどのビューアで確認できます。詳細はこのページをご覧ください。
    Image

    • 実行例の「3」の出力は、UniprotもしくはNCBI NTデータベースに対してBlastを行ったアノテーション付きのタブ区切りのテキストファイルです。各コンティグに対して、トップヒットの結果のみアノテーションされています。さらに、生物種やGO情報もアノテーションされます。
    Image

    • 実行例の「4」の出力は、MUMmerによってコンティグの類似度を調べることができます。本パイプライン中では、同じFASTAファイル内で調べるため、有用性は低いですが、もしも異なる条件などでアセンブルしたFASTAファイルが別途ある場合には、MUMmer plotのパイプラインを単独で用いて2つのコンティグを比較できます(下図参照)。
    コンティグ数が増えると、計算時間が非常に長くなるため、デフォルトでは長いほうから100個のコンティグに限定して計算します。
    Image

    • 実行例の「5」の出力は、samtools mpileupによってSNV, INDELを抽出した結果です。
    ホモ、ヘテロ接合領域を探索する際に用いることが可能です。
    Image

    • 実行例の「6」の出力は、PSMC (Pairwise Sequentially Markovian Coalescent)モデルによって過去のpopulationを推定したものです。この推定は、コンティグの質に大きく影響されます。完成度の高いゲノム配列が得られているならば、原著で推定されるような結果が得られます。
    Image

    • 実行例の「7」の出力は、横軸にコンティグのカバレッジ、縦軸にGC含量、もしくはコンティグ長として、全コンティグをプロットしたものです。
    下記の例では、XY型の性決定様式の生物でオスのゲノムを読んだ例です。常染色体の半分程度のカバレッジの箇所に、性染色体XYがピークとして見られます。
    また、共生細菌などのコンタミがある場合には、これらのメインのピークのほかに、別のピークが見られるため、コンタミ状況を把握することができます。
    Image

Comments


Use case


Related information