Platform for Drug Discovery


Bowtie(SE)-MACS2-GADEM-MotIV-ChIPpeakAnno


Introduction

  • このパイプラインはDNA結合因子の結合領域をMACS2で予測します。シャープなピークに対して効果があります。
    Input1 formatFASTQ
    Input2 formatFASTQ
    Library layoutSingle-end only
    SpeciesHuman, Mouse or all registered species to UCSC Genome Bioinformatics
    Execution timeAbout 5 hours. (30M and 25M reads single-end [36bp])

    Results
    Image
    (2) Enriched regions
    Image
    (3) Enriched region (Genome Explorer)
    Image
    (6) Known motif report

Table of contents


Inputs


    入力1:fastq (single-end) (ChIP (case) sequence)

    入力2:fastq (single-end) (Input (control) sequence)

    • 免疫沈降処理のコントロール条件(Control/Input)の配列ファイルを入力します。MACSでは、Controlは必須です。
    • データ書式の説明はこちらをご覧ください。

Pipeline history

Outputs

    Image
    (1) ChIP-seq QC report
    Image
    (2) Enriched regions (BED format)
    Image
    (3) Enriched region (Genome Explorer)


    Image
    (4) Peak call summary report
    Image
    (5) De novo motif report
    Image
    (6) Known motif report
    Image
    (7) TSS and GO annotation report

    (1) ChIP-seq QC report

    (2) Enriched regions (BED format)

    • Image
      (2) Enriched regions (BED format)
    • MACSによって予測された結合領域の場所と統計値がBED形式で出力されたものです。
    • BEDファイルは、シンプルかつ多様なプログラムの共通書式に利用されますので、高次解析に利用できます。
    • ファイル自体の利用方法としては、例えば、Excel等のスプレッドシートで開いた後、以下のような操作をするなども考えられます。
      • ExcelでBEDファイルを開く
        • "開く"からファイルの種類で"すべてのファイル (*.*)"を指定し、ダウンロードしたBEDファイルを"ファイル名"に指定して"次へ"ボタン押下。
        • "カンマやタブ区切り文字によってフィールドごとに区切られたデータ(D)"をチェックして"次へ"押下。
        • 区切り文字を"タブ(T)"だけ指定して"次へ"押下。
        • 1列目と3列目だけ、文字列で読み込むので、それらを選択後、列のデータ形式"文字列(T)"を選択後"完了"押下。
        • Image
      • 高信頼度のピークのみ抜き出す
        • 最右列(5列目)は-10*log10(pvalue)を意味しているので、適当な閾値を設定して高信頼度のピークのみ表示することができます。
        • Image
      • GenomeExlorerへのダイレクトリンクを作成する
        • 位置座標情報を利用して弊所ゲノムブラウザ(GenomeExplorer)へのリンクをダイレクトリンクを作ります。
        • Image
        • 以下の数式をセルのG1に入力後、セルのG1をコピーして、G列の他のセルに貼りつければ、それぞれのピーク領域へのダイレクトリンクが作成出来ます。
          ="https://cell-innovation.nig.ac.jp/public/gbrowser/GenomeBrowser.do?genome=hg19&scale=16&genomePosition="&A1&":"&B1&"&dataIdArray=DS00218950,DS00218964,DS00218999&projectId=PJ00001581"
        • ご自身のデータを利用される場合は下のGenomeExplorerのデータの見方にあるIDの指定を行って下さい。
        • また上のURLは公開データですが、非公開データを利用する場合は"cell-innovation.nig.ac.jp/public/gbrowser"を"cell-innovation.nig.ac.jp/members/gbrowser"に置き換える必要があります。
      • GenomeExplorerへのリンクと同じ要領で、以下にUCSC Genome browserへのダイレクトリンクの作成例を示します。この例では、上流、下流に1000塩基広げています。
        ="http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position="&A1&":"&(B1-1000)&"-"&(C1+1000)
      • IGVなど他のゲノムブラウザでも同じ操作は可能です。
      • ほぼ同じ操作はExcelでなくともフリーで利用可能なgoogle spread sheetでも利用できます。

    (3) Enriched region (Genome Explorer)

      • 3つのGenomeExplorer用データアイコンの下の"Select"ボタンを押した後、ポップアップしたサブ画面の"Genome Explorer"ボタンを押すことで、Caseの生リードのマッピング状況、Controlの生リードのマッピング状況、MACSによる予測結合領域を同時にGenomeExplorerで確認することができます。
      • これにより、ピークの波形が妥当かなどを確認することができます。
      • この操作は公開版のMaserでは出来ませんのでご注意ください。
    • Image
      • 図中の各トラックは以下を意味します。
        • #トラックラベル説明
          1(+)Genes既知遺伝子領域順鎖方向。(共通トラック)
          2(-)Genes既知遺伝子領域逆鎖方向。(共通トラック)
          3(+)RefSeq既知Isoform領域順鎖方向。(共通トラック)
          4(-)RefSeq既知Isoform領域逆鎖方向。(共通トラック)
          5(+)SRR577861.viewCase条件の順鎖方向の生リードのマッピング状況
          6(-)SRR577861.viewCase条件の逆鎖方向の生リードのマッピング状況
          7(+)SRR577663.viewControl条件の順鎖方向の生リードのマッピング状況
          8(+)SRR577663.viewControl条件の逆鎖方向の生リードのマッピング状況
          9peak.viewMACSによる予測結合領域
      • ブラウザのURLに表示されているURLの中のDS00218950,DS00218964に付け加えれば、他のサンプルを同時に参照したり、RNA-seqデータと同時に参照することもできます。
      • ブラウザの使用方法の詳細はこちらをご覧ください。

    (4) Peak call summary report

    • 高次解析に直接利用しないMACSの出力ファイル群です。
    • 詳しい説明はこちらも参考に下さい。
    • #画像説明
      ##############################
      1Image MACSプログラムの実行条件です。
      2Image Peakの頂点からの順鎖、逆鎖のリードの分布グラフです。
      3Image ピーク領域周辺で、横軸にある数値分だけ順鎖の分布と逆鎖の分布をずらした場合のそれぞれで相関を示したグラフです。この例では132が最大値なので、結合領域をまたぐChIP-seqの断片長がおよそ132塩基であることを意味します。このグラフは本質的にphantompeakqualtoolsによる(1) ChIP-seq QC reportと同じで、そちらのグラフの最大値130がほぼ一致しています。
      4Image MACS独自形式のピーク領域のリストです。BEDファイルより統計値の情報量が多く、BED形式の情報を包含しています。両者の違いか気になる方はNGS Surfer's Wiki(MACSの_peaks.xlsから_peaks.bedを生成する)などを参考に下さい。BEDと同様の利用方法も考えられますので必要に応じて"Download Excel File"からご利用下さい。

    (5) De novo motif report

    • Image
      (5) De novo motif report
    • モチーフ検出プログラムのGADEMの出力ファイル群です。
    • 多くの場合モチーフ検出プログラムは、複数のモチーフ候補を抽出するので、候補ごとにマルチプルアライメント情報などが表示されます。
    • 詳しい説明はこちらをご覧ください。

    (6) Known motif report

    • Image Image Image
    • GADEMによって予測された複数のモチーフそれぞれに対して、R/BioconductorのパッケージMotIVを用いて、フリーのモチーフデータベースJASPARに対して検索をかけ、上位E-valueを持つものを5件表示します。
    • 1.seq、2.seq、3.seqが、この例で予測されたクエリとなる3件の予測モチーフで、その下にある行が類似性のあるモチーフです。
    • 今回用いたデータは転写因子のFOXA1のChIP-seqの結果を解析していますが、GADEM,MotIVにはFOXA1の情報を与えていませんが、2.seqに最も類似する既知モチーフがFOXA1であり、適切に処理が機能していることが確認できています。
    • 詳しくはこちらをご覧下さい。

    (7) TSS and GO annotation report

    • R/BioconductorパッケージChIPpeakAnnoを用いて付加した、予測結合領域近傍の既知遺伝子(Ensembl)情報と、それらの遺伝子群でエンリッチされたGeneOntologyに関するレポートです。
    • Image
      • 左半分がMACSが出力したBED形式の予測結合部位で、中央がアノテーション付けされた近傍のEnsembl遺伝子の情報、右側がそれら予測結合部位と、遺伝子領域の距離や重なりのステータスを示します。
      • 詳しくはレポート中の"legend"を開いて下さい。
      • こちらの情報もご参考に下さい。
    • Image
      • 最も近傍なTSSと結合領域の距離の分布です。
    • Image
      • ChIPpeakAnnoによってアノテーション付けされた遺伝子群でエンリッチされているGO(Gene Ontology) termをp-valueの低い順に並べています。
    • Image
      • エンリッチされたGO termの親子等の関係性をAmiGOによって作図したものです。

How to run this pipeline

  • 解析実行の流れの詳細はこちらをご確認ください。
  • 実行するプロジェクト内に入力となる配列ファイルが2つ入力出来たら、それらのデータアイコンの下の"Select"ボタンを押した後、"Analysis"ボタンを押します。
    • Image
  • 選択されたファイルのデータ型に応じた解析の選択肢がリストされるので、その左のメニューから"ChIP-seq"を選び、このパイプラインを選びます。
    • Image
  • 選択された入力ファイルの確認と、プロジェクト(ワークスペース)に誤りが無いかを確認します。
    • Image
    • 特にCASEとControlの順番を間違えないよう気をつけて下さい。逆になっていた場合は、ドラッグアンドドロップで置き換えができます。
  • ヒトのデータであれば、そのままデフォルトオプションで"Run"ボタンを押し実行することもできますが、実行条件を変えたい場合や、他の生物種のデータを利用する場合は、"Set option and run"を押して、オプション選択画面に遷移します。
  • オプション選択についての詳細は下のOptionの項目をご覧ください。

Options

    Image

    (partially omitted)
    Image

    • 設定可能な実行オプション値と説明は以下にあります。
    • 特に後半のオプションを変更される場合は、機能ごとに実行可能な単品パイプラインで動作確認を行った後に利用した方が、無駄な待ち時間を減らせる可能性が高いので、検討下さい。
    • #オプション番号オプション名重要性説明
      1パイプライン共通bowtie version-bowtieプログラムのバージョンです。
      2パイプライン共通bowtie other options-ゲノムへのマッピング条件です。初期値はユニークヒットにするための"-m 1 -a --best --strata"が設定されています。配列の品質が悪い場合などはミスマッチ許容度を増やすなどします。
      3パイプライン共通GENOME_IDゲノムのバージョンで、ヒト以外の生物種の配列を指定する場合は必須です。対応ゲノムが無い場合はご相談下さい。
      4パイプライン共通samtools version-samtoolsプログラムのバージョンです。
      5パイプライン共通Load directionalityゲノムビューワに配列の生データをロードする時の順鎖・逆鎖の区別をするかしないかです。ChIP-Seqのデータは、順鎖と逆鎖のピークのずれが重要なので、デフォルトでは"directional"が設定されています。"non-directional"にすると、ビュー上で順逆を足し合わせたサンプルごと1トラックだけが表示されます。
      61.1MACS2 version (2.0.10 and later)-ピークコールプログラムのMACSのバージョンです。他のバージョンが使いたい方はご相談下さい。
      71.2Common option for output file prefix-出力ファイルのプレフィックスに使用されます。複数の条件で実行した結果をダウンロードして使用する際などに、この値を設定しておくと便利です。
      81.3MACS2 callpeak other options (2.0.10 and later)ピークコールプログラムのMACSに対するオプション値を設定します。ヒト以外の生物の場合は、マウス用"-g mm"、C. elegans用"-g ce"、ショウジョウバエ用"-g dm"、それ以外の生物用"-g 1.0e+9"か"-g 1000000000"などの形式でゲノムサイズを指定します。
      91.4MACS2 callpeak single-end or paired-end-MACSプログラムのペアエンド対応オプションの可否です。このパイプラインはシングルエンド用なので、"-f BAM"のままにします。
      102.1Load directionality-ピークコール後のBEDファイルをゲノムビューワにロードする際の順鎖・逆鎖の区別の有無です。通常ChIP-Seqの結果のBEDは方向性は無いので、"non-directional"を設定します。
      113.1BEDTools version-モチーフ検索を実行する前に、配列を抜き出す処理に利用するBEDToolsのバージョンを指定します。
      123.2slopBed -b予測された結合領域から、モチーフ探索に利用する配列の拡張範囲を指定します。例えば"100"を指定すると、結合領域から、上流・下流に100塩基余分に切り出されることになります。"-pct"オプションを指定した場合は、結合領域の長さに対する割合になり、-bが"0.1"で結合領域長が100塩基なら両方向に10塩基余分に切り出されます。
      133.3slopBed -l予測された結合領域から、モチーフ探索に利用する配列の範囲の左方向への拡張範囲を指定します。-sが指定された場合は上流方向を意味します。このオプションを指定する場合は-bオプションは空にして下さい。
      143.4slopBed -r予測された結合領域から、モチーフ探索に利用する配列の範囲の右方向への拡張範囲を指定します。-sが指定された場合は下流方向を意味します。このオプションを指定する場合は-bオプションは空にして下さい。
      153.5slopBed -s予測された結合領域から、モチーフ探索に利用する配列の拡張範囲を指定する場合の、順逆の考慮の有無を指定します。指定しないと、-lオプションで、順鎖では上流、逆鎖では下流が伸長されます。
      163.6slopBed -pct-予測された結合領域から、モチーフ探索に利用する配列の拡張範囲を指定する際に、塩基数でなく、結合領域長に対する割合で拡張範囲を指定できるようにします。
      173.7fastaFromBed -name-予測された結合領域の配列を切り出す際の配列名をBEDのnameカラム(この場合はXXX_peak_1など)にします。処理には影響を与えないので、指定していません。
      183.8fastaFromBed -s-予測された結合領域の配列を切り出す際に順鎖・逆鎖の区別を行うかを指定します。MACSの出力は方向の区別がないので、指定しません。
      193.9GADEM version-GADEMプログラムのバージョンです。他のバージョンが使いたい方はご相談下さい。
      203.10GADEM optionモチーフ抽出を行うGADEM実行時のオプション値です。モチーフ予測がうまくいかない場合や、GADEMの実行時間がいつまでも終わらない場合に検討する必要がありそうです。
      214.1R version-R/BioconductorパッケージのMotIVを動作させるRのバージョンです。インストールしたバージョンは決まっているので、基本的には変更しません。特定のバージョンを使う必要がある場合は、ご相談下さい。
      225.1ChIPpeakAnno upstream offset 予測結合領域のリストに既知遺伝子情報を関連付ける際の上流方向への探索範囲を指定します。
      235.2ChIPpeakAnno downstream offset 予測結合領域のリストに既知遺伝子情報を関連付ける際の下流方向への探索範囲を指定します。
      245.3ChIPpeakAnno species予測結合領域のリストに既知遺伝子情報を関連付ける際の既知遺伝子情報の生物種を指定します。対応生物が無い場合は、適当に設定し、アノテーション情報を無視して下さい。
      256.1ChIPpeakAnno TSS distance range for ChIP report.ピークとTSS間の距離の閾値を指定します。
      266.2number of data per page of the tables on HTML"TSS and GO annotation report"の表の1ページあたりの表示件数を指定します。
      276.3p value threshold for GO analysisGO解析の結果の表示の上限に利用するp-valueを指定します。

Comments

  • オプションChIPpeakAnno speciesでの選択肢が、human,mouse,rat,zebrafishのみのため、予測結合領域周辺の既知遺伝子アノテーション付け機能はそれらの生物種でのみ有効ですが、MACSのオプション値-g GSIZEを適切に設定すれば、その他の生物でも利用できるはずです。ゲノムの選択肢があり、利用できない場合はご連絡下さい。

Use case

  • この説明ページで使用されているFigは、ENCODEプロジェクトが公開しているGSM1010826細胞株での転写因子FOXA1のChIP-Seqデータ(SRR577861 )とそのコントロールデータ(SRR577663 )を入力として、Bowtieのユニークマッピング、MACSのデフォルトオプションでのピーク検出、GADEMによる予測結合領域に特異的に見られるモチーフの検出を行っています。

Related Tools