Platform for Drug Discovery


[日本語]  

PeakSeq


Introduction

  • このパイプラインはDNA結合因子の結合領域をPeakSeqで予測します。シャープなピークに対して効果があります。
    Input1 formatBAM
    Input2 formatBAM
    Library layoutSingle-end only
    Specieshuman(hg19), mouse(mm9), fluit fly(dm3), C.elegans(ce10)
    Execution timeAbout 20 minutes. (30M and 25M reads single-end [36bp])

    Results

Table of contents

Inputs


    入力1: bam (ChIP(case) mapping result bam)

    • ChIP処理後のシーケンスデータをリファレンスゲノムにマッピングした結果のbamファイルを入力とします。
    • この例では、fastqファイルの配列データを以下の2つのパイプラインを順次処理した結果のbamファイルを入力とすることで、ユニークにマップされた結果のみを使うことができます。
    • パイプラインBowtie<SE>-MACS2-GADEM-MotIV-ChIPpeakAnnoのように、Bowtieにユニークヒットオプション"-m 1 -a --best --strata"を付加して実行した結果のbam型データを利用しても良いでしょう。Bowtieでのマッピングだけ実行するには以下のパイプラインを用います。
    • 受託解析その他でSAMファイルや、BAMファイルが手元にある場合はそちらを利用することも可能です。
      • SAMファイルの場合は、パイプラインsam->bam を実行して用います。
      • BAMファイルの場合は、bam(unsorted)型で登録後にパイプラインbam<unsorted> -> bam<sorted>を実行して用います。
      • ツールによっては後付でユニークヒットのみ取り出すなどが難しいかもしれませんので、その場合はfastqをアップロード後にマッピングから実施してください。
    • データ書式の説明はこちらをご覧ください。

    入力2: bam (Input(control) mapping result bam)

    • いわゆるInputやControlなどで表現されるChIP処理を行わないシーケンスデータをリファレンスゲノムにマッピングした結果のbamファイルを入力とします。
    • このデータ用の前処理は、上記のChIP処理後のものと同一ですのでそちらを参照ください。
    • データ書式の説明はこちらをご覧ください。

Pipeline history

    Image
    • 上の点線で囲まれた範囲がこのパイプラインの取り扱い範囲になります。

Outputs


    (1) Enriched regions (BED format)
    (2) Enriched regions (ENCODE narrowPeak format)
    (3) Enriched regions (PeakSeq original format)
    (4) Enriched region (Genome Explorer)

    (1) Enriched regions (BED format)

    • Image
    • PeakSeqによって予測された結合領域の場所と統計値がBED形式で出力されたものです。
    • BEDファイルは、シンプルかつ多様なプログラムの共通書式に利用されますので、高次解析に利用できます。

    (2) Enriched regions (ENCODE narrowPeak format)

    • Image
    • PeakSeqによって予測された結合領域の場所と統計値がENCODE narrow形式で出力されたものです。
    • この書式はChIP-seqデータの結果の共通化を図った書式ですが、Maserに登録されたパイプライン郡ではこれを利用するものは現在はありません。

    (3) Enriched regions (PeakSeq original format)

    • Image
    • PeakSeqによって予測された結合領域の場所と統計値がPeakSeq独自形式で出力されたものです。
    • ファイル自体の利用方法としては、例えば、Excel等のスプレッドシートで開いた後、以下のような操作をするなども考えられます。
      • ExcelでPeakSeq独自書式ファイルを開く
        • Image Image
        • "開く"からファイルの種類で"すべてのファイル (*.*)"を指定し、ダウンロードしたBEDファイルを"ファイル名"に指定して"次へ"ボタン押下。
        • "カンマやタブ区切り文字によってフィールドごとに区切られたデータ(D)"をチェックして"次へ"押下。
        • 区切り文字を"タブ(T)"と"スペース(S)"を指定して"完了"押下。
      • 高信頼度のピークのみ抜き出す
        • (H列)"Log_p-value"で、適当な閾値を設定して高信頼度のピークのみ表示することができます。
        • Image
        • 上:絞込み結果。-150未満のみ表示させています。
        • Image
        • シートの左端の三角を押し、シート全体を選択後、メニューから"フィルター"押下。
        • H列の絞込みボタンを押し"数値フィルター"-"指定の値より小さい"を選択。
        • フィルタ条件に"-150"と入力すれば上の例の-150未満の列のみが表示された状態になります。
      • GenomeExlorerでピークを確認する
        • Image
        • ファイル中の染色体番号と、座標"Begin"を下で記載する弊所ゲノムブラウザ(GenomeExplorer)に入力すれば当該ピークのマップ状況を確認することができます。

(4) Enriched region (Genome Explorer)

    • パイプラインの実行準備で生成された2つのGenomeExplorer用データアイコンと、パイプラインによって生成された2つのGenomeExplorer用データアイコンの下の"Select"ボタンを押した後、ポップアップしたサブ画面の"Genome Explorer"ボタンを押すことで、Caseの生リードのマッピング状況、Controlの生リードのマッピング状況、PeakSeqによる予測結合領域を同時にGenomeExplorerで確認することができます。
    • これにより、ピークの波形が妥当かなどを確認することができます。
    • この操作は公開版のMaserでは出来ませんのでご注意ください。
    • 図中の各トラックは以下を意味します。
      • #トラックラベル説明
        1(+)Genes既知遺伝子領域順鎖方向。(共通トラック)
        2(-)Genes既知遺伝子領域逆鎖方向。(共通トラック)
        3(+)RefSeq既知Isoform領域順鎖方向。(共通トラック)
        4(-)RefSeq既知Isoform領域逆鎖方向。(共通トラック)
        5(+)FOXA1.1.viewCase条件の順鎖方向の生リードのマッピング状況
        6(-)FOXA1.1.viewCase条件の逆鎖方向の生リードのマッピング状況
        7(+)Input.1.viewControl条件の順鎖方向の生リードのマッピング状況
        8(+)Input.1.viewControl条件の逆鎖方向の生リードのマッピング状況
        9FOXA1_GSM1010826
        (exp=SL2666,input=SL2665)
        .unique.peaks.view
        PeakSeqによる予測結合領域
    • ブラウザのURLに表示されているURLの中のDS00218950,DS00218964に付け加えれば、他のサンプルを同時に参照したり、RNA-seqデータと同時に参照することもできます。
    • ブラウザの使用方法の詳細はこちらをご覧ください。

How to run this pipeline

  • 解析実行の流れの詳細はこちらをご確認ください。
  • 実行するプロジェクト内に入力となる配列のマッピング結果のbamファイルが2つ用意出来たら、それらのデータアイコンの下の"Select"ボタンを押した後、"Analysis"ボタンを押します。
  • 左のメニューの"Tools"から"Peak Caller"を選択し、"PeakSeq"の左の"Analysis"ボタンをクリックします。
    • Image
  • 選択された入力ファイルの確認と、プロジェクト(ワークスペース)に誤りが無いかを確認します。
    • 特にCASEとControlの順番を間違えないよう気をつけて下さい。逆になっていた場合は、ドラッグアンドドロップで置き換えができます。
  • ヒトのデータであれば、そのままデフォルトオプションで"Run"ボタンを押し実行することもできますが、実行条件を変えたい場合や、他の生物種のデータを利用する場合は、"Set option and run"を押して、オプション選択画面に遷移します。
  • オプション選択についての詳細は下のOptionの項目をご覧ください。

Options


    Image

    Image

    • 設定可能な実行オプション値と説明は以下にあります。
    • 特にオプション自由入力欄に値を設定する場合は間違いやすいので、「解析条件の確認と実行ログの確認について」を参照して、トラブルシューティングする必要があるでしょう。
    #オプション番号オプション名重要性説明
    1パイプライン共通GENOME_IDゲノムのバージョンで、ヒト以外の生物種の配列を指定する場合は必須です。human(hg19), mouse(mm9), fluit fly(dm3), C.elegans(ce10)のみ有効です。対応ゲノムが無い場合はご相談下さい。
    21.1PeakSeq version-ピークコールプログラムのPeakSeqのバージョンです。他のバージョンが使いたい方はご相談下さい。
    31.2samtools version-BAMからSAMへ書式変換する際に使用するsamtoolsのバージョンを指定します。
    41.3Common option for output file prefix-出力ファイルのプレフィックスに使用されます。複数の条件で実行した結果をダウンロードして使用する際などに、この値を設定しておくと便利です。
    51.4PeakSeq Enrichment_fragment_length-断片長を指定します。初期値は200。
    61.5PeakSeq target_FDR-シミュレーション時のFDRの閾値を設定します。初期値は0.05
    71.6PeakSeq N_Simulations-シミュレーション回数を指定します。初期値は10。
    81.7PeakSeq Minimum_interpeak_distance-ピーク間の間隔の最低値を指定します。初期値は200。
    91.8PeakSeq max_Qvalue-最終ピークに適用されるQ値の閾値を設定します。
    101.9PeakSeq Simulation_seed-乱数生成時のシードです。
    111.10PeakSeq Background_model-閾値決定のためのバックグラウンドのシミュレーションのモデルを選択します。
    122.1Load directionality-ゲノムビューワに配列の生データをロードする時の順鎖・逆鎖の区別をするかしないかです。ChIP-Seqのデータは、順鎖と逆鎖のピークのずれが重要なので、デフォルトでは"directional"が設定されています。"non-directional"にすると、ビュー上で順逆を足し合わせたサンプルごと1トラックだけが表示されます。

Comments

  • オプション値のGENOMEでは、human(hg19), mouse(mm9), fluit fly(dm3), C.elegans(ce10)以外を指定しても実行失敗するだけですので注意が必要です。

Use case

  • この説明ページで使用されているデータは、ENCODEプロジェクトが公開しているGSM1010826細胞株での転写因子FOXA1のChIP-Seqデータ(SRR577861(external link))とそのコントロールデータ(SRR577663(external link))を入力として、PeakSeqのデフォルトオプションでのピーク検出を行っています。

Related Tools