Platform for Drug Discovery


[日本語]  

MACS2 with control(input) (2.0.10 and later)


Introduction


  • このパイプラインはDNA結合因子の結合領域をMACS2で予測します。シャープなピークに対して効果があります。

  • Input1 formatBAM
    Input2 formatBAM
    Library layoutSingle-end or Paired-end
    SpeciesHuman, Mouse or all registered species to UCSC Genome Bioinformatics
    Execution timeAbout 20 minutes. (30M and 25M reads single-end [36bp])

    Results
    Image
    (1) Enriched regions (BED format)
    Image
    (2) Peak call summary report
    Image
    (4) Enriched region (Genome Explorer)

Table of contents

Inputs


    入力1: bam (ChIP(case) mapping result bam)

    • ChIP処理後のシーケンスデータをリファレンスゲノムにマッピングした結果のbamファイルを入力とします。
    • この例では、fastqファイルの配列データを以下の2つのパイプラインを順次処理した結果のbamファイルを入力とすることで、ユニークにマップされた結果のみを使うことができます。
    • パイプラインBowtie<SE>-MACS2-GADEM-MotIV-ChIPpeakAnnoのように、Bowtieにユニークヒットオプション"-m 1 -a --best --strata"を付加して実行した結果のbam型データを利用しても良いでしょう。Bowtieでのマッピングだけ実行するには以下のパイプラインを用います。
    • このMACSパイプラインはペアエンド入力にも対応しています。その場合は、以下のパイプラインを順次実行してマッピング結果を取得すると良いでしょう。
    • 受託解析その他でSAMファイルや、BAMファイルが手元にある場合はそちらを利用することも可能です。
      • SAMファイルの場合は、パイプラインsam->bam を実行して用います。
      • BAMファイルの場合は、bam(unsorted)型で登録後にパイプラインbam<unsorted> -> bam<sorted>を実行して用います。
      • ツールによっては後付でユニークヒットのみ取り出すなどが難しいかもしれませんので、その場合はfastqをアップロード後にマッピングから実施してください。
    • データ書式の説明はこちらをご覧ください。

    入力2: bam (Input(control) mapping result bam)

    • いわゆるInputやControlなどと呼称されるChIP処理を行わないシーケンスデータをリファレンスゲノムにマッピングした結果のbamファイルを入力とします。
    • このデータ用の前処理は、上記のChIP処理後のものと同一ですのでそちらを参照ください。
    • データ書式の説明はこちらをご覧ください。

Pipeline history

    Image
  • 上の点線で囲まれた範囲がこのパイプラインの取り扱い範囲になります。

Outputs


    Image
    (1) Enriched regions (BED format)
    Image
    (2) Peak call summary report
    Image
    (3) Enriched regions (ENCODE narrowPeak format)
    Image
    (4) Enriched region (Genome Explorer)

    (1) Enriched regions (BED format)

    • MACSによって予測された結合領域の場所と統計値がBED形式で出力されたものです。
    • BEDファイルは、シンプルかつ多様なプログラムの共通書式に利用されますので、高次解析に利用できます。
    • ファイル自体の利用方法としては、例えば、Excel等のスプレッドシートで開いた後、以下のような操作をするなども考えられます。
      • ExcelでBEDファイルを開く
        • "開く"からファイルの種類で"すべてのファイル (*.*)"を指定し、ダウンロードしたBEDファイルを"ファイル名"に指定して"次へ"ボタン押下。
        • "カンマやタブ区切り文字によってフィールドごとに区切られたデータ(D)"をチェックして"次へ"押下。
        • 区切り文字を"タブ(T)"だけ指定して"次へ"押下。
        • 1列目と3列目だけ、文字列で読み込むので、それらを選択後、列のデータ形式"文字列(T)"を選択後"完了"押下。
        • Image
      • 高信頼度のピークのみ抜き出す
        • 最右列(5列目)は-10*log10(pvalue)を意味しているので、適当な閾値を設定して高信頼度のピークのみ表示することができます。
        • Image
      • GenomeExlorerへのダイレクトリンクを作成する
        • 位置座標情報を利用して弊所ゲノムブラウザ(GenomeExplorer)へのリンクをダイレクトリンクを作ります。
        • Image
        • 以下の数式をセルのG1に入力後、セルのG1をコピーして、G列の他のセルに貼りつければ、それぞれのピーク領域へのダイレクトリンクが作成出来ます。
          ="https://cell-innovation.nig.ac.jp/public/gbrowser/GenomeBrowser.do?genome=hg19&scale=16
          &genomePosition="&A1&":"&B1&"&dataIdArray=DS00218950,DS00218964,DS00218999&projectId=PJ00001581"
        • ご自身のデータを利用される場合は下のGenomeExplorerのデータの見方にあるIDの指定を行って下さい。
        • また上のURLは公開データですが、非公開データを利用する場合は"cell-innovation.nig.ac.jp/public/gbrowser"を"cell-innovation.nig.ac.jp/members/gbrowser"に置き換える必要があります。
      • GenomeExplorerへのリンクと同じ要領で、以下にUCSC Genome browserへのダイレクトリンクの作成例を示します。この例では、上流、下流に1000塩基広げています。
        ="http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position="&A1&":"&(B1-1000)&"-"&(C1+1000)
      • IGVなど他のゲノムブラウザでも同じ操作は可能です。
      • ほぼ同じ操作はExcelでなくともフリーで利用可能なgoogle spread sheetでも利用できます。

(2) Peak call summary report

  • 高次解析に直接利用しないMACSの出力ファイル群です。
  • 詳しい説明はこちらも参考に下さい。
  • #画像説明
    ##############################
    1 Image MACSプログラムの実行条件です。
    2 Image Peakの頂点からの順鎖、逆鎖のリードの分布グラフです。
    3 Image ピーク領域周辺で、横軸にある数値分だけ順鎖の分布と逆鎖の分布をずらした場合のそれぞれで相関を示したグラフです。この例では132が最大値なので、結合領域をまたぐChIP-seqの断片長がおよそ132塩基であることを意味します。このグラフは本質的にphantompeakqualtoolsによる(1) ChIP-seq QC reportと同じで、そちらのグラフの最大値130がほぼ一致しています。
    4 Image MACS独自形式のピーク領域のリストです。BEDファイルより統計値の情報量が多く、BED形式の情報を包含しています。両者の違いか気になる方はNGS Surfer's Wiki(MACSの_peaks.xlsから_peaks.bedを生成する)などを参考に下さい。BEDと同様の利用方法も考えられますので必要に応じて"Download Excel File"からご利用下さい。

(3) Enriched regions (ENCODE narrowPeak format)

  • Image
  • MACSによって予測された結合領域の場所と統計値がENCODE narrow形式で出力されたものです。
  • この書式はChIP-seqデータの結果の共通化を図った書式ですが、Maserに登録されたパイプライン郡ではこれを利用するものは現在はありません。

(4) Enriched region (Genome Explorer)

    • パイプラインの実行準備で生成された2つのGenomeExplorer用データアイコンと、パイプラインによって生成された2つのGenomeExplorer用データアイコンの下の"Select"ボタンを押した後、ポップアップしたサブ画面の"Genome Explorer"ボタンを押すことで、Caseの生リードのマッピング状況、Controlの生リードのマッピング状況、MACSによる予測結合領域を同時にGenomeExplorerで確認することができます。
    • これにより、ピークの波形が妥当かなどを確認することができます。
    • この操作は公開版のMaserでは出来ませんのでご注意ください。
    • 図中の各トラックは以下を意味します。
      • #トラックラベル説明
        1(+)Genes既知遺伝子領域順鎖方向。(共通トラック)
        2(-)Genes既知遺伝子領域逆鎖方向。(共通トラック)
        3(+)RefSeq既知Isoform領域順鎖方向。(共通トラック)
        4(-)RefSeq既知Isoform領域逆鎖方向。(共通トラック)
        5(+)FOXA1.1.viewCase条件の順鎖方向の生リードのマッピング状況
        6(-)FOXA1.1.viewCase条件の逆鎖方向の生リードのマッピング状況
        7(+)Input.1.viewControl条件の順鎖方向の生リードのマッピング状況
        8(+)Input.1.viewControl条件の逆鎖方向の生リードのマッピング状況
        9FOXA1_GSM1010826
        (exp=SL2666,input=SL2665)
        .unique.peaks.view
        MACSによる予測結合領域
        10FOXA1_GSM1010826
        (exp=SL2666,input=SL2665)
        .unique.summits.view
        MACSによる予測結合領域の頂点部位
    • ブラウザのURLに表示されているURLの中のDS00218950,DS00218964に付け加えれば、他のサンプルを同時に参照したり、RNA-seqデータと同時に参照することもできます。
    • ブラウザの使用方法の詳細はこちらをご覧ください。

How to run this pipeline

  • 解析実行の流れの詳細はこちらをご確認ください。
  • 実行するプロジェクト内に入力となる配列のマッピング結果のbamファイルが2つ用意出来たら、それらのデータアイコンの下の"Select"ボタンを押した後、"Analysis"ボタンを押します。
  • 左のメニューの"Tools"から"Peak Caller"を選択し、"MACS with control(input) (2.0.10 and later)"の左の"Analysis"ボタンをクリックします。
    • Image
  • 選択された入力ファイルの確認と、プロジェクト(ワークスペース)に誤りが無いかを確認します。
    • 特にCASEとControlの順番を間違えないよう気をつけて下さい。逆になっていた場合は、ドラッグアンドドロップで置き換えができます。
  • ヒトのsingle-endのデータであれば、そのままデフォルトオプションで"Run"ボタンを押し実行することもできますが、実行条件を変えたい場合や、他の生物種のデータを利用する場合は、"Set option and run"を押して、オプション選択画面に遷移します。
  • オプション選択についての詳細は下のOptionの項目をご覧ください。

Options


    Image

    (partially omitted)

    Image

    • 設定可能な実行オプション値と説明は以下にあります。
    • 特にオプション自由入力欄に値を設定する場合は間違いやすいので、「解析条件の確認と実行ログの確認について」を参照して、トラブルシューティングする必要があるでしょう。
    #オプション番号オプション名重要性説明
    1パイプライン共通GENOME_IDゲノムのバージョンで、ヒト以外の生物種の配列を指定する場合は必須です。対応ゲノムが無い場合はご相談下さい。
    21.1MACS2 version (2.0.10 and later)-ピークコールプログラムのMACSのバージョンです。他のバージョンが使いたい方はご相談下さい。
    31.2Common option for output file prefix-出力ファイルのプレフィックスに使用されます。複数の条件で実行した結果をダウンロードして使用する際などに、この値を設定しておくと便利です。
    41.3MACS2 callpeak other options (2.0.10 and later)ピークコールプログラムのMACSに対するオプション値を設定します。ヒト以外の生物の場合は、マウス用"-g mm"、C. elegans用"-g ce"、ショウジョウバエ用"-g dm"、それ以外の生物用"-g 1.0e+9"か"-g 1000000000"などの形式でゲノムサイズを指定します。
    51.4MACS2 callpeak single-end or paired-endMACSプログラムのペアエンド対応オプションの可否です。シングルエンドの場合は初期値の"-f BAM"、ペアエンドの場合は"-f BAMPE"を選択します。

Comments

  • このパイプラインでは、予測結合領域を幣所開発のゲノムビューワ(GenomeExplorer)にインポートして可視化するために、予めビューワに登録された生物種のゲノムバージョンを選択する必要がありますが、この機能を無視すれば、MACSのオプション値-g GSIZEを適切に設定すれば、その他の生物でも利用できるはずです。ゲノムの選択肢があり、利用できない場合はご連絡下さい。

Use case

  • この説明ページで使用されているデータは、ENCODEプロジェクトが公開しているGSM1010826細胞株での転写因子FOXA1のChIP-Seqデータ(SRR577861(external link))とそのコントロールデータ(SRR577663(external link))を入力として、MACSのデフォルトオプションでのピーク検出を行っています。

Related Tools