Platform for Drug Discovery


MACS


開発者


    "Yong Zhang and Tao Liu (X. Shirley Liu Lab, Department of Biostatistics and Computational Biology
    Dana-Farber Cancer Institute, Harvard School of Public Health)"

特徴


    Model-based Analysis of ChIP-Seq data (MACS) により頑健で高分解能のピーク検出を行う。
    1. ChIP-Seqタグのシフトサイズのモデル化
    2. λlocalを使ったピーク検出
    3. コントロールデータがない場合、ChIPサンプルから局所的なタグの分布を算出することでピークの検出精度を高める。
    FDR, ピーク頂点でのモチーフ発見確率、空間解像度のいずれにおいてもMACSはFindPeaks, QuESTよりよい成績を示した。

出力データ


出力のリスト


  • 1.0系の場合
    $ ls MACS1.4.2output/
    
    NA_model.r  NA_negative_peaks.xls  NA_peaks.bed  NA_peaks.xls  NA_summits.bed
    • --wigなどを追加すると、それに関係する出力ファイルが増加します。
  • 2.0系の場合
    $ ls MACS.2.0.9output/
    
    NA_model.r    NA_peaks.encodePeak  NA_pq_table.txt
    
    NA_peaks.bed  NA_peaks.xls         NA_summits.bed
    • 1.0系と違い、(NAME)_negative_peaks.xlsが出力されません。
    • (NAME)_peaks.encodePeak、(NAME)_pq_table.txtが新たに追加されています。

出力1-1 (NAME)_peaks.xls


  • 検出されたピークのリストで詳細な情報が付加されています。
  • 拡張子はxlsですが、実体はtsv(タブ区切りテキストファイル)。
  • 出力項目は以下
    #カラム名説明備考
    1chr染色体番号 chr1
    2startピークの開始座標※120000
    3endピークの終了座標 20491
    4lengthピーク領域の長さ 492
    5summitピークの頂点の開始座標からの相対位置 55
    6tagsピーク領域のタグ数 281
    7-10*LOG10(pvalue)左の式通り※2192.48
    8fold_enrichment基準からどれだけエンリッチされているか※34.42
    9FDR(%)%表示したFDR値 24.25
    • ※1:bed形式で使用される染色体開始座標とは異なり、1からスタートします。
    • ※2:実際にExcelで開くと#NAME?が表示されると思いますが、"=-log..."の"-="をシングルクォートに書き換えて、"'-log..."のようにすると正常な表示なります。
    • ※3:基準と表現した部分は"random Poisson distribution with local lambda"で表現される。
  • このファイルの情報を部分的に抜き出して書式変換したものが"(NAME)_peak.bed"です。以下のようにこのファイルから"(NAME)_peak.bed"を生成することも出来ます。

出力1-2 (NAME)_negative_peaks.xls


  • コントロールデータ指定時のみ出力されます。
  • caseのデータとcontrolのデータを逆にした場合にコールされるピークのリストです。
  • 書式は出力1-1 (NAME)_peaks.xlsと同一ですが、"#"で始まるメタ情報行が無い点は異なります。
  • MACS2.0系では出力されません。

出力2-1 (NAME)_peaks.bed


  • 検出されたピークのリストでBED形式で出力されます。
  • BEDの5カラム目まである書式で
    #カラムの概要
    1染色体番号chr1
    2開始座標20053
    3終了座標20054
    4エントリー名MACS_peak_1
    5スコア74.00
    • スコアの部分には-10*LOG10(pvalue)の値が入ります。
    • BEDの書式はこちら
  • "(NAME)_peak.xls"の情報を部分的に抜き出して書式変換したものがこのファイルです。以下のようにこの"(NAME)_peak.xls"からこのファイルを生成することも出来ます。

出力2-2 (NAME)_summits.bed


  • 検出されたピークの頂点(binding site)のリストです。
  • 書式は出力出力2-1 (NAME)_peaks.bedと同一ですが、第5カラムの意味だけ異なります。
    • 第5カラム(スコア)には頂点の高さが入ります。
  • bindingモチーフ検索にはこのリストの領域を使用することを推奨しているので、BEDtoolsなどを利用して、ゲノムから配列切り出し->モチーフ検出の流れに利用できます。

出力3-1 (NAME)_model.r


  • プログラム言語Rのスクリプトの形式で書かれた、peakモデルのグラフ用データです。
  • Rでこのスクリプトを実行することで実行ディレクトリに出力3-2 (NAME)_model.pdfが生成されます。
    • 実行コマンド
      $ R --vanilla < NAME_model.r

出力3-2 (NAME)_model.pdf


  • peakモデルのグラフ画像のpdfファイルです。
  • 出力3-1 (NAME)_model.rをRで実行することによって生成されます。
    • Image
    • 公開データのID=SRX003882(case用:Polymerase II ChIP DNA)とID=SRX003881(control用:Input DNA)をMACSのデフォルトオプションで実行したものです。
    • 下は2.0.10以降のバージョンでpdfに含まれる図です。
    • Image

出力4 (NAME)_peaks.encodePeak


  • MACS 2.0系で標準出力されますが、1.0系では出力されません。

文献


メモ


  • ダウンロードに必要なクイズに関係するスクリプト。aaaaを何かに置き換えると...
    perl -e '@a=split(//,"aaaa");for($i=0;$i<=$#a;$i++){if(ord($a[$i])<110){$a[$i]=chr(ord($a[$i])+13)}else{$a[$i]=chr(ord($a[$i])-13)}};print join("",@a)."\n"'

参考


インストールログ



Contact us
Copyright © 2009-2017 National Institute of Genetics  [Site Policy] [Privacy Policy]