Loading...
 
日本語
P000001425

contig annotations and estimation of population size history (PE)


Introduction


This pipeline could predict genes by Augustus, annotate genes by blast against NT database, mask repeat regions, and estimate population size history.

このパイプラインは、アセンブル後のコンティグに対して、各種アノテーションを行います。遺伝子アノテーションとしては、Repeat Maskerによる重複配列のマスキング、Augustusによる遺伝子予測、およびUniprotに対するblastx、NRに対するblastnを行います。また、MUMmerによるドットプロットを作成し、コンティグのリピート配列を確認したり、PSMCというツールによって、対象生物の過去の集団サイズを推定します。また、各コンティグのカバレッジと、コンティグ長のグラフを作成し、共生細菌などの混入がないか確認できます。


Input formatFASTQ, FASTA, RepeatMasker library
Library layoutFor paired-end read only
Execution timeAbout a few days


Results
Image
Uniprot, NRアノテーション付きコンティグ表
Image
集団サイズの推移


Table of contents




Inputs


・ファイルはペアエンドのFASTQファイルと、アセンブルされたゲノム配列(FASTA形式)が必要です。また、オプションとして、Repbase(external link)からrepeatmaskerlibraries-201xxxxx.tar.gzをダウンロードし、その中の「RepeatMaskerLib.embl」ファイルを入力すると、完全なRepeatMaskerの機能が使用できます。
スペース「 」や、カッコ「(」、クオーテーション「'」などといった文字や日本語は使えません。アルファベット+数字+アンダーバー「_」で名前を付けてください。
ペアエンドの場合、フォワード側は「xxx_1.fastq」、「xxx_1.fq」、「xxx_1.txt」、「xxx_1_sequence.txt」、「xxx_R1_yyy.fastq」などとなっている必要があり、リバース側は「xxx_2.fastq」、・・・となっている必要があります。
(例:my_sample_1.fastq, my_sample_2.fastq)

・FASTQについては、このページ(external link)をご覧ください。

Outputs



実行例1
Image


1. RepeatMaskerによる重複配列の除去結果
Image
2. AUGUSTUSによる遺伝子領域予測
Image
Augustusによる遺伝子予測結果 (gff形式)
3. Uniprot, NRアノテーション付きコンティグ表
Image
コンティグ一覧と、Blastによるアノテーション付きテーブル(tsvファイル(Excelにて閲覧可能))
4. ドットプロット
Image
5. SNV, ショートINDEL一覧
Image
6. 過去の集団サイズ推定
Image
7. カバレッジ-コンティグ長plot
Image


How to run this pipeline


このパイプラインは、アセンブル結果のFASTAファイルと、アセンブルに用いたFASTQファイルの全て、もしくは一部があれば動作しますが、RepeatMaskerによるリピート配列の探索を完全に行うには、Repbase(external link)から「repeatmaskerlibraries-201xxxxx.tar.gz」という名前のファイルをダウンロードし、その中の「RepeatMaskerLib.embl」というファイルを併せて入力する必要があります。
Image
Image


Result explanation


  • 本パイプラインを実行しますと、上記の実行例(external link)のようなヒストリーが得られます。
実行例の「1」の出力は、RepeatMaskerの実行結果です。その中の「contigs.masked.fasta」は、重複配列が小文字に変換されたFASTAファイルです。また、どの程度重複配列が存在したのかは、「contigs.tbl」ファイルに記述されています。
Image

  • 実行例の「2」の出力は、AUGUSTUSによって予測された遺伝子領域がGFF形式で出力されています。このGFFファイルと、入力に用いたFASTAファイルを用いてIGVなどのビューアで確認できます。詳細はこのページ(external link)をご覧ください。
Image

  • 実行例の「3」の出力は、UniprotもしくはNCBI NTデータベースに対してBlastを行ったアノテーション付きのタブ区切りのテキストファイルです。各コンティグに対して、トップヒットの結果のみアノテーションされています。さらに、生物種やGO情報もアノテーションされます。
Image

  • 実行例の「4」の出力は、MUMmerによってコンティグの類似度を調べることができます。本パイプライン中では、同じFASTAファイル内で調べるため、有用性は低いですが、もしも異なる条件などでアセンブルしたFASTAファイルが別途ある場合には、MUMmer plotのパイプライン(external link)を単独で用いて2つのコンティグを比較できます(下図参照)。
コンティグ数が増えると、計算時間が非常に長くなるため、デフォルトでは長いほうから100個のコンティグに限定して計算します。
Image

  • 実行例の「5」の出力は、samtools mpileupによってSNV, INDELを抽出した結果です。
ホモ、ヘテロ接合領域を探索する際に用いることが可能です。
Image

  • 実行例の「6」の出力は、PSMC (Pairwise Sequentially Markovian Coalescent)モデルによって過去のpopulationを推定したものです。この推定は、コンティグの質に大きく影響されます。完成度の高いゲノム配列が得られているならば、原著(external link)で推定されるような結果が得られます。
Image

  • 実行例の「7」の出力は、横軸にコンティグのカバレッジ、縦軸にGC含量、もしくはコンティグ長として、全コンティグをプロットしたものです。
下記の例では、XY型の性決定様式の生物でオスのゲノムを読んだ例です。常染色体の半分程度のカバレッジの箇所に、性染色体XYがピークとして見られます。
また、共生細菌などのコンタミがある場合には、これらのメインのピークのほかに、別のピークが見られるため、コンタミ状況を把握することができます。
Image

Comments


Use case



Public
Bowtie(Original site)(external link)(NGS Surfer's wiki)(external link)
SAMtools(Original site)(external link)(NGS Surfer's wiki)(external link)


Private