Platform for Drug Discovery


[日本語]  

SISSRs


Introduction

  • このパイプラインはDNA結合因子の結合領域をSISSRsで予測します。シャープなピークに対して効果があります。
    Input1 formatBAM
    Input2 formatBAM (Optional)
    Library layoutSingle-end only
    SpeciesHuman, Mouse or all registered species to UCSC Genome Bioinformatics
    Execution timeAbout 30 minutes. (30M and 25M reads single-end [36bp])

    Results

Table of contents

Inputs


    入力1: bam (ChIP(case) mapping result bam)

    • ChIP処理後のシーケンスデータをリファレンスゲノムにマッピングした結果のbamファイルを入力とします。
    • この例では、fastqファイルの配列データを以下の2つのパイプラインを順次処理した結果のbamファイルを入力とすることで、ユニークにマップされた結果のみを使うことができます。
    • パイプラインBowtie<SE>-MACS2-GADEM-MotIV-ChIPpeakAnnoのように、Bowtieにユニークヒットオプション"-m 1 -a --best --strata"を付加して実行した結果のbam型データを利用しても良いでしょう。Bowtieでのマッピングだけ実行するには以下のパイプラインを用います。
    • 受託解析その他でSAMファイルや、BAMファイルが手元にある場合はそちらを利用することも可能です。
      • SAMファイルの場合は、パイプラインsam->bam を実行して用います。
      • BAMファイルの場合は、bam(unsorted)型で登録後にパイプラインbam<unsorted> -> bam<sorted>を実行して用います。
      • ツールによっては後付でユニークヒットのみ取り出すなどが難しいかもしれませんので、その場合はfastqをアップロード後にマッピングから実施してください。
    • データ書式の説明はこちらをご覧ください。

    入力2: bam (Input(control) mapping result bam)

    • いわゆるInputやControlなどで表現されるChIP処理を行わないシーケンスデータをリファレンスゲノムにマッピングした結果のbamファイルを入力とします。
    • このデータ用の前処理は、上記のChIP処理後のものと同一ですのでそちらを参照ください。
    • SISSRsでは、このControlデータを省略することも可能です。
    • データ書式の説明はこちらをご覧ください。

Pipeline history


    Image
    • 上の点線で囲まれた範囲がこのパイプラインの取り扱い範囲になります。

Outputs


    (1) Enriched regions (BED format)
    (2) SISSRs execution statistics
    (3) Enriched regions (SISSRs original format)
    (4) Enriched region (Genome Explorer)

    (1) Enriched regions (BED format)

    • SISSRsによって予測された結合領域をBED形式に変換したものです。
    • BEDファイルは、シンプルかつ多様なプログラムの共通書式に利用されますので、高次解析に利用できます。

    (2) SISSRs execution statistics

      • SISSRsの実行結果に含まれる実行統計情報を抜き出したものです。

    (3) Enriched regions (SISSRs original format)

      • SISSRsのオリジナルのピーク予測結果ファイルで、実行統計部分と予測結合領域部分に分かれています。
      • 上で記載したbedファイルはこのファイルの予測結合領域部分を加工したものです。
    • ファイル自体の利用方法としては、例えば、Excel等のスプレッドシートで開いた後、以下のような操作をするなども考えられます。
      • ExcelでSISSRs独自書式ファイルを開く
        • Image
          Image
          Image
        • "開く"からファイルの種類で"すべてのファイル (*.*)"を指定し、ダウンロードしたSISSRs独自書式ファイルを"ファイル名"に指定して"次へ"ボタン押下。
        • "カンマやタブ区切り文字によってフィールドごとに区切られたデータ(D)"をチェックして"次へ"押下。
        • 区切り文字を"タブ(T)"と"スペース(S)"を指定して"完了"押下。
      • 不要な行の削除
        • 今回は結合領域のリストの情報の利用を想定しているので、不要な実行統計行を削除します。
        • Image
        • この場合は、1~55行目と、57行目が関係ない行なので行の削除します。
        • Image
      • 高信頼度のピークのみ抜き出す
        • (F列)"p-value"で、適当な閾値を設定して高信頼度のピークのみ表示することができます。
        • Image
        • 上:絞込み結果。"1e-06"以下のみ表示させています。
        • Image
        • シートの左端の三角を押し、シート全体を選択後、メニューから"フィルター"押下。
        • F列の絞込みボタンを押し"数値フィルター"-"指定の値より小さい"を選択。
        • フィルタ条件に"1e-05"と入力すれば上の例の1e-06以下の列のみが表示された状態になります。
      • GenomeExlorerでピークを確認する
          Image
        • ファイル中の染色体番号と、座標"Begin"を下で記載する弊所ゲノムブラウザ(GenomeExplorer)に入力すれば当該ピークのマップ状況を確認することができます。

(4) Enriched region (Genome Explorer)

    • パイプラインの実行準備で生成された2つのGenomeExplorer用データアイコンと、パイプラインによって生成された2つのGenomeExplorer用データアイコンの下の"Select"ボタンを押した後、ポップアップしたサブ画面の"Genome Explorer"ボタンを押すことで、Caseの生リードのマッピング状況、Controlの生リードのマッピング状況、SISSRsによる予測結合領域を同時にGenomeExplorerで確認することができます。
    • これにより、ピークの波形が妥当かなどを確認することができます。
    • この操作は公開版のMaserでは出来ませんのでご注意ください。
    • 図中の各トラックは以下を意味します。
    • #トラックラベル説明
      1(+)Genes既知遺伝子領域順鎖方向。(共通トラック)
      2(-)Genes既知遺伝子領域逆鎖方向。(共通トラック)
      3(+)RefSeq既知Isoform領域順鎖方向。(共通トラック)
      4(-)RefSeq既知Isoform領域逆鎖方向。(共通トラック)
      5(+)FOXA1.1.viewCase条件の順鎖方向の生リードのマッピング状況
      6(-)FOXA1.1.viewCase条件の逆鎖方向の生リードのマッピング状況
      7(+)Input.1.viewControl条件の順鎖方向の生リードのマッピング状況
      8(+)Input.1.viewControl条件の逆鎖方向の生リードのマッピング状況
      9FOXA1_GSM1010826
      (exp=SL2666,input=SL2665)
      .unique.peaks.view
      SISSRsによる予測結合領域

    • ブラウザのURLに表示されているURLの中のDS00218950,DS00218964に付け加えれば、他のサンプルを同時に参照したり、RNA-seqデータと同時に参照することもできます。
    • ブラウザの使用方法の詳細はこちらをご覧ください。

How to run this pipeline

  • 解析実行の流れの詳細はこちらをご確認ください。
  • 実行するプロジェクト内に入力となる配列のマッピング結果のbamファイルが2つ用意出来たら、それらのデータアイコンの下の"Select"ボタンを押した後、"Analysis"ボタンを押します。
  • 左のメニューの"Tools"から"Peak Caller"を選択し、"SISSRs"の左の"Analysis"ボタンをクリックします。
    • Image
  • 選択された入力ファイルの確認と、プロジェクト(ワークスペース)に誤りが無いかを確認します。
    • 特にCASEとControlの順番を間違えないよう気をつけて下さい。逆になっていた場合は、ドラッグアンドドロップで置き換えができます。
  • ヒトのデータであれば、そのままデフォルトオプションで"Run"ボタンを押し実行することもできますが、実行条件を変えたい場合や、他の生物種のデータを利用する場合は、"Set option and run"を押して、オプション選択画面に遷移します。
  • オプション選択についての詳細は下のOptionの項目をご覧ください。

Options


    Image

    Image

    • 設定可能な実行オプション値と説明は以下にあります。
    • 特にオプション自由入力欄に値を設定する場合は間違いやすいので、「解析条件の確認と実行ログの確認について」を参照して、トラブルシューティングする必要があるでしょう。
    #オプション番号オプション名重要性説明
    1パイプライン共通GENOME_IDゲノムのバージョンで、ヒト以外の生物種の配列を指定する場合は必須です。対応ゲノムが無い場合はご相談下さい。
    21.1BEDTools version-SISSRsの入力に使用するBED形式のマッピング結果をBAMファイルから生成際に使用するbamToBedが含まれるBEDToolsのバージョンです。
    31.2SISSRs version-ピークコールプログラムのSISSRsのバージョンです。他のバージョンが使いたい方はご相談下さい。
    41.3SISSRs -sSISSRsのピーク検出時に利用するゲノムサイズの情報を入力します。初期値の0が指定された場合はヒトhg19のゲノムサイズ3095677412が利用されます。
    51.4Common option for output file prefix-出力ファイルのプレフィックスに使用されます。複数の条件で実行した結果をダウンロードして使用する際などに、この値を設定しておくと便利です。
    61.5SISSRs other options-ピークコールプログラムのSISSRsに対するオプション値を設定します。
    122.1Load directionality-ピークコール後のBEDファイルをゲノムビューワにロードする際の順鎖・逆鎖の区別の有無です。通常ChIP-Seqの結果のBEDは方向性は無いので、"non-directional"を設定します。

Comments

  • このパイプラインでは、予測結合領域を幣所開発のゲノムビューワ(GenomeExplorer)にインポートして可視化するために、予めビューワに登録された生物種のゲノムバージョンを選択する必要がありますが、この機能を無視すれば、SISSRs -sのオプション値のゲノムサイズを適切に設定すれば、その他の生物でも利用できるはずです。ゲノムの選択肢があり、利用できない場合はご連絡下さい。

Use case

  • この説明ページで使用されているデータは、ENCODEプロジェクトが公開しているGSM1010826細胞株での転写因子FOXA1のChIP-Seqデータ(SRR577861(external link))とそのコントロールデータ(SRR577663(external link))を入力として、SISSRsのデフォルトオプションでのピーク検出を行っています。

Related Tools