Loading...
 
印刷

denovoゲノムアセンブルフロー

denovo assemble解析フロー


処理ステップと、そのステップを実行するツールのカバー範囲を表形式で表示します。

その他分かりやすく、まとめやすい表現があれば適当に置き換えてください。


処理ステップ フロー例1 フロー例2
サンプル調整 染色体抽出 染色体抽出 染色体抽出
サンプル調整 断片化 断片化 断片化
シーケンシング シーケンシング 各種シーケンサー(ペアエンドで配列決定することが多い) 各種シーケンサー(ペアエンドで配列決定することが多い)
解析処理 ベースコール 各種シーケンサー付属ベースコーラ 各種シーケンサー付属ベースコーラ
解析処理 assemble前処理 ツール1-1 ツール2-1
解析処理 contig構築 ツール1-1 ツール2-2
解析処理 scaffold構築 ツール1-2 ツール2-2



処理ステップごとの説明


Assemble全体の困難さ

一般的に以下のような問題があり、比較的つまづくポイントが多いように思います。

  • 巨大なメモリを搭載した計算機がなければ実行できない場合が多い。
  • 計算負荷を軽減するため、より機械語に近い低水準言語で実装されることが多く、環境構築や、ライブラリの依存関係の解決などに苦労することが多い。

assemble前処理

配列のペア情報やinsertサイズをプログラムに知らせるためのメタ情報の作成処理が必要な場合があります。


contig構築

複数の配列断片を繋げて、数百~数万塩基長のcontigを作成します。入力として、ペアエンドの配列でinsertが200塩基未満のものを使用するのが一般的でしょうか。

454由来の数百塩基ある中鎖と200塩基未満の短鎖を組み合わせる方法論もあるようです。 (引用先をご存じのかたはお知らせください。)


Brujin graph

Pevzner et al.が発表した、ショートリードの配列特性を効果的にassembleに使用することができるアルゴリズムです(EULER参照)。velvetや、パンダゲノムの決定に使用されたSOAPdenovoなど、このアルゴリズムをベースとした実装を行っています。キーワードとしてk-merというパラメータの設定が重要になってきます。詳しくはBrujin graphアルゴリズムについてを参照して下さい。

数百塩基の配列が取得できるsanger法の時代に主流だった"overlap-layout-consensus"アプローチとは基本的な考え方が異なっています。


scaffold構築

複数のcontigの空間的な配置を決定しより大きな配列を構築します。構築の結果は、contig間が"N"などで埋められることもあります。この処理過程用の入力情報として、insertサイズが数千塩基のペアエンドを必要とするアセンブラも存在します。


Last edited by nobfujii , based on work by mfujisak .
Page last modified on 月曜日 11 of June, 2012 09:44:16 JST.