Loading...
 
印刷

bisulfite処理解析フロー


bisulfite処理解析フロー


処理ステップと、そのステップを実行するツールのカバー範囲を表形式で表示します。

その他分かりやすく、まとめやすい表現があれば適当に置き換えてください。
処理ステップ 未処理型 全置換候補列挙型 ゲノム置換型 ゲノム,read両置換型 ワイルドカードマッチ型
サンプル調整 染色体抽出 実験作業
do. bisulfite処理 実験作業
do. PCR増幅 サンプルの量、実験デザインに依存して、PCR増幅する場合としない場合がある。
シーケンシング シーケンシング 各種シーケンサー
解析処理 ベースコール 各種シーケンサー付属ベースコーラ
do. マッピング前処理 - 全置換候補の列挙genomeA:original genomeB:全C->T変換 genomeC:全G->A変換 genome:全C->T変換 read:全C->T変換 -
do. ゲノムマッピング ミスマッチ許容度を高め(25%ミスマッチ)たマッピング 通常マッピング 通常マッピング 通常マッピング ワイルドカードマッピング
do. マッピング後処理 メチル化以外のミスマッチの除去 変換前のreadとの情報統合 複数genomeへのmapping結果の統合 変換前のreadとの情報統合 -

do.:同上


処理ステップごとの説明

bisulfite処理

    • bisulfite処理はDNA上のメチル化Cを検出する際のGolden standardな方法論です。
    • bisulfite処理することにより、DNA上の非メチル化CがTに変化し、基本的にメチル化Cのみ、Cとして残ります。
    • bisulfite処理前 bisulfite処理後
      A A
      T T
      G G
      メチル化C C
      非メチル化C T
      非メチル化C C(1-5%程度の反応を逃れた塩基)
    • このため、bisulfite処理した染色体断片をそのままシーケンシングしたものを通常のゲノムマッピングにかけると、非メチル化Cの箇所でC->Tに変化したミスマッチとして検出されることになります。
    • read   ATGTATGCATGCATGTAT
             ||| ||| ||||||| ||
      genome ATGCATGTATGCATGCAT
                u   M   m   u
      *u:非メチル化cの箇所
      *M:ミスマッチ
      *m:メチル化cの可能性のある箇所

    • このマッピング時の特殊性から、マッピングツールはbisulfite処理後のDNA専用のものを用いるか、あらかじめゲノムやリードを塩基置換した方法論が選択されます。

bisulfite処理自体の問題点


    • 以下の理由により、bisulfite処理後にCとして残っているものの全てがメチル化されているわけではないようです。
    • bisulfite 処理が化学的に激しい反応性があるため、染色体の分断を引き起こす作用もあるようです。全ての非メチル化CがTに置換されることを期待するものの、実際は充分なfragment長を確保するために、一部(1-5%程)の非メチル化CがTに置換されずに残るようです。
    • Quote:
      Bisulfite treatment is harsh, and a balance
      must be struck between converting as many unmethylated cytosines as
      possible and retaining sufficient fragments at the appropriate sizes.
      Therefore, along with the methylated Cs at CpGs, anywhere from 1–5%
      of the remaining Cs may be unconverted by chance
      (depending on experimental parameters used).
(Harris et. al 2009)(external link)

シーケンサとの相性

454

    • C->Tに変換することで、cardinalityが低下します。結果としてpolyTになる箇所が増えるため、454のpolyN長を正しく予測できない特性がより増加する可能性もあります。 bisulfite処理なしの場合との比較データがないため一概には言えないでしょうが、比較的長い配列が決定されている割に、下記論文のunmap率は38%と低くないようです。参考(Zeschnigk et. al. 2009)(external link)

solexa, solid

    • shortリードでは、C->Tに変換することによるcardinality低下がfalse positiveマッピングを増加させる可能性があり、false positiveによって、本来のマップ位置が埋没する可能性があります。

PCR増幅処理

    • bisulfite処理した後のDNAをPCR増幅すると、C->Tの変化の相補であるG->Aの変化も許容しなければなりません。この場合は、マップされた箇所の"G"の位置の相補佐の"C"がメチル化されていた塩基となります。
    • read       ATACATGCATGCATACGT
                 || ||| ||||||| |||
      genome     ATGCATATATGCATGCAT
                       M
      complement TACGTACGTACGTACGTA
                   u       m   u
      *u:非メチル化cの箇所
      *M:ミスマッチ
      *m:メチル化cの可能性のある箇所

マッピング処理

未処理型

    • ミスマッチ許容度を高めに取ることで、bisulfite処理によりC->T変換した非メチル化塩基をミスマッチとして検出する方法です。
    • PCR増幅を行っている場合は、G->Aも考慮する必要があります。
    • 高めのミスマッチ許容度(リード長の1/4など)によって、取れてきたC->T(またはG->T)以外のミスマッチを複数含むマッピング結果を除外するなどの後処理が必要となります。
問題点
    • そもそも、一般的に利用されるBWTアルゴリズム系ショートリード用マッピングプログラムでは、ミスマッチ許容度を高くすると、指数関数的に探索空間が広がるため、マッピング速度は急激に遅くなります。
    • また、ミスマッチ許容度を高め(リード長の25%)に設定したとしても、殆どメチル化されていない領域から抽出されたreadでは、非メチル化Cの割合が高い(25%以上)とそのような領域由来のreadがUnmapとみなされてしまうことになります。結果としてマップされた情報から算出したメチル化率は高めに見積もられる可能性がある他、メチル化が疎な領域が検出できない可能性があります。また、非メチル化Cの割合が高いほど、許容できるミスマッチが減少することもバイアスを生みます。

    • 以下のようなGC含量60%のgenome領域由来でメチル化率0%のreadが存在した場合、C->Tが3/10=30%に達するため、マッピングされません。また、そのreadにミスマッチが1含まれていた場合は、メチル化率が33%でもマッピングされません。
    • genome                   GCATGCATGC
      ===================================
                               | ||| |||  <- mismatch 30%
      read un-methyl rate 100% GTATGTATGT <- not mapped 
                                u   u   u <- methyl-C rate 0%
      
                               | | | |||| <- mismatch 30%
      read with mismatch       GTAAGTATGC <- not mapped
                                u M u   m <- mathyl-C rate 33%
      *u:非メチル化cの箇所 [#h381b14a]
      *M:ミスマッチ [#a555bee9]
      *m:メチル化cの可能性のある箇所 [#a4634ab2]

全置換候補列挙型

    • シーケンシングされた配列中のT(PCR増幅した場合はAも)は、もともと非メチル化C(または非メチル化Cの相補のG)だった可能性があります。全てのTに対して取りうる置換前のパターンを全てクエリとして再構築し、それぞれの候補をマッピングします。

    • genomeATGCATGCAT
      ###m###u##
      read sequence from sequencerATGCATGTAT
      candidate01ATGCATGTAT
      candidate02ATGCATGTAC
      candidate03ATGCATGCAT <- correct candidate
      candidate04ATGCATGCAC
      candidate05ATGCACGTAT
      candidate06ATGCACGTAC
      candidate07ATGCACGCAT
      candidate08ATGCACGCAC
      candidate09ACGCATGTAT
      candidate10ACGCATGTAC
      candidate11ACGCATGCAT
      candidate12ACGCATGCAC
      candidate13ACGCACGTAT
      candidate14ACGCACGTAC
      candidate15ACGCACGCAT
      candidate16ACGCACGCAC
      ※u:非メチル化cの箇所
      ※m:メチル化cの可能性のある箇所
問題点
    • リード中に存在する2の"リード中T(またはA)の数"乗だけクエリが増えるため、実行速度が現実的な数値にならない場合が多いでしょう。

    • bisulfite処理後のreadのreadが50塩基であり、そのGC含量が40%の場合、およそ15塩基がT(またはA)になります。15塩基のT(またはA)の任意数がC(またはG)であった組み合わせは2の15乗=32,768 =3万なので、3万倍マッピング時間を要することになります(BWT系アルゴリズムの場合)。

ゲノム置換型

    • ゲノムをあらかじめ以下の3種用意します。
      • (1):未処理ゲノム
      • (2):全C->T変換後ゲノム
      • (3):全G->A変換後ゲノム
    • それぞれのゲノムにbisulfite処理後シーケンスread配列をマップします。
    • メチル化Cの割合の多いreadは、未処理ゲノムにマップされます。
    • 非メチル化Cの割合の多いreadはC->Tに変換されているため、全C->T変換後のゲノムにマップされます。
    • 非メチル化Cの割合の多いreadのPCR増幅comprementは、全C->T変換後ゲノムにマップします。
    • PCR増幅後のbisulfite処理相補鎖があり、そのreadの非メチル化Cが多い場合は、全G->A変換後ゲノムにマップします。
    • (1) genome original                    ATGCATGCATGCATGC
      (2) converted genome (all C -> T)      ATGTATGTATGTATGT
      (3) converted genome (all G -> A)      ATACATACATACATAC 
      =======================================================
       alignment to (1)                      |||||||||||||||| <- mismatch  0%
       alignment to (2)                      ||| ||| ||| |||  <- mismatch 25%
       alignment to (3)                      || ||| ||| ||| | <- mismatch 25%
      read methyl rate 100%                  ATGCATGCATGCATGC <- mapped to (1) 
                                                m   m   m   m <- methyl-C rate 100%
      =======================================================
       alignment to (1)                      ||| ||| ||| |||  <- mismatch 25%
       alignment to (2)                      |||||||||||||||| <- mismatch  0%
       alignment to (3)                      ||  ||  ||  ||   <- mismatch 50%
      read un-methyl rate 100%               ATGTATGTATGTATGT <- mapped to (2) 
                                                u   u   u   u <- methyl-C rate 100%
      =======================================================
       alignment to (1)                      || ||| ||| ||| | <- mismatch 25%
       alignment to (2)                      ||  ||  ||  ||   <- mismatch 50%
       alignment to (3)                      |||||||||||||||| <- mismatch  0%
      read un-methyl rate 100% in complement ATACATACATACATAC <- mapped to (3)
      read un-methyl rate 100%               TATGTATGTATGTATG
                                               u   u   u   u  <- methyl-C rate 100%
      =======================================================
       alignment to (1)                      ||| ||||||| |||| <- mismatch 12.5%
       alignment to (2)                      ||||||| |||||||  <- mismatch 12.5%
       alignment to (3)                      ||  || |||  || | <- mismatch 47.5%
      read methyl rate 50%                   ATGTATGCATGTATGC <- not mapped 
                                                m   u   m   u <- methyl-C rate 50%
      *u:非メチル化cの箇所
      *M:ミスマッチ
      *m:メチル化cの可能性のある箇所
利点
    • メチル化率が高いリードを検出できます。

問題点
    • ミスマッチ許容度との兼ね合いにもなりますが、メチル化されたCと非メチル化されたCが両方頻度が高いreadはマップされません。
    • 全てC->T変換ゲノム、全てG->A変換ゲノムへのマッピングはcardinalityが低下しているので、false positeveマッピング(偶然誤った箇所にマッピングするケース)の割合が増加することが予想されます。

ゲノム,read両置換型

    • マッピング前にgenomeの全C->T変換し、readの全C->T変換した上でマッピングを行います。
    • 原理的には、上記の"未処理型","ゲノム置換型"で見られる、メチル化C割合、非メチル化C割合によるバイアスがない結果が得られることになります。
    • しかし、特にshortReadでは問題が大きいですが、塩基がAGTの3つに減少します。この、cardinalityの減少は、false positiveマッピング(偶然誤った箇所にマッピングするケース)の割合が増加することが予想されます。

ワイルドカードマッチ型

    • base in read base in genome
      C C allow
      C T deny
      T C allow
      T T allow
    • Tのみ、ワイルドカード的に[C/T]へのマッチを許します。
    • PCR増幅を行っている場合は、
    • Aのみ、ワイルドカード的に[G/A]へのマッチを許します。
    • このワイルドカードの条件は1リードあたり、どちらか一方だけしか適応させるべきではありません。
  • BSMAP
    • 実行速度がSOAPなどの通常のマッピングに比べて100倍程度要します。readの置換候補を列挙するやりかたよりは、はるかに実行時間が少ないものの、assemble処理と並んで計算機負荷は高いです。並列処理が可能です。

方法論が不明なbisulfite mappingプログラム。

    • mrsFAST

参考情報


Last edited by nobfujii , based on work by ymiyoshi .
Page last modified on 火曜日 28 of December, 2010 15:27:49 JST.