Platform for Drug Discovery


[日本語]  

ChIPpeakAnno add neighbor annotation and make a report


Introduction

  • このパイプラインは転写因子等予測結合領域などの領域情報にbed形式で与えた任意の近接するアノテーション情報を付加し、レポート化するパイプラインです。
    bed (Peak region file)bed
    bed (Annotation file)bed
    SpeciesAny
    Execution timeAbout 10 minutes.

    Results
    Image
    (2) ChIPpeakAnno report
    Image
    _

Table of contents

Inputs


    入力1: bed (Peak region file)

    • アノテーション付加を行いたい領域情報をbed形式で入力します
    • ChIP-seq用のピークコーラーによって出力されたbed形式の予測結合領域データなどが想定されます。
    • 以下の出力データなどが、このパイプラインの1番目の入力に想定されます。
    • データ書式の説明はこちらをご覧ください。

    入力2: bed (Annotation file)

    Pipeline history


      • Image
      • 上の点線で囲まれた範囲がこのパイプラインの取り扱い範囲になります。

      Outputs


        Image
        (1) ChIPpeakAnno original output
        Image
        (2) ChIPpeakAnno report
        Image
        _

        (1) ChIPpeakAnno original output

        • Image
        • R/BioconductorパッケージのChIPpeakAnnoによってアノテーション付加された情報をファイルに出力したものです。
        • このデータ形式に関する詳細はChIPpeakAnnoのマニュアルをご覧ください。

        (2) ChIPpeakAnno report

        • ChIPpeakAnnoの出力を加工し、Rを使えない方でも絞込みを容易にしたインターフェイス付きのレポートです。
          • ファイルサイズが大きい場合Internet Explorerでは警告メッセージがでて閲覧できない場合がありますが、google chromeなどのブラウザでの閲覧を推奨します。
          • ブラウザを通じてメモリを大きく使用するため、古いパソコンなどで閲覧する場合は、他のアプリケーションを閉じるなどの対応をとって下さい。
        • Image
          • 簡易フィルタ機能を含むhtml版と、Excel等のスプレッドシートで開くことのできるcsv版が提供されていますが、本質的にはデータの内容は同一です。
          • 以下のように利点と難点がありますので、状況に応じて使い分けて下さい。
            #ファイル名の例利点難点
            1html版(何某).perEntry.tested.html簡易的なフィルタリングが容易に行えます。検定対象のエントリー数が多いと表示でません。
            Internet Explorer非対応。
            データの加工は困難。
            2csv版(何某).perEntry.tested.csvExcel等のスプレッドシート用アプリケーションで開き複雑な絞り込みや、データの加工ができます。
            データサイズが増えても大きな問題ありません。
            開くまでに手間がかかります。
            3共通点-ダウンロードしてオフラインで利用できます。
            ファイルそのものにデータを含んでいます。
        • 列の説明
          #列名説明
          1chromピーク領域(アノテーション付け対象)の染色体番号
          2strPosピーク領域(アノテーション付け対象)の開始座標
          3endPosピーク領域(アノテーション付け対象)の終了座標
          4widthピーク領域(アノテーション付け対象)の幅
          5peakピーク領域(アノテーション付け対象)のピークのID
          6Nearest namesピーク名とNearestアノテーション名の組
          7Nearest strandNearestアノテーションの方向
          8Nearest featureNearestアノテーション名
          9Nearest start_positionNearestアノテーションの開始座標
          10Nearest end_positionNearestアノテーションの終了座標
          11Nearest insideFeatureピークに対するNearestアノテーションの位置関係
          12Nearest distancetoFeatureピークに対するNearestアノテーションの相対距離
          13Nearest shortestDistanceピークに対するNearestアノテーションの最短部の相対距離
          14Nearest fromOverlappingOrNearestオリジナルの書式との互換性のため必ず'NearestStart'が入る列
          15Overlap namesピーク名とOverlapアノテーション名の組※
          16Overlap strandOverlapアノテーションの方向※
          17Overlap featureOverlapアノテーション名※
          18Overlap start_positionOverlapアノテーションの開始座標※
          19Overlap end_positionOverlapアノテーションの終了座標※
          20Overlap insideFeatureピークに対するOverlapアノテーションの位置関係※
          21Overlap distancetoFeatureピークに対するOverlapアノテーションの相対距離※
          22Overlap shortestDistanceピークに対するOverlapアノテーションの最短部の相対距離※
          23Overlap fromOverlappingOrNearestオリジナルの書式との互換性のため必ず'Overlapping'が入る列※
          24GE linkGenome Explorerへのリンク
          25UCSC linkUCSC Genome Browserへのリンク
          • Nearest:最も近傍のアノテーション、Overlap:ピークと重なる(または一定領域内の)アノテーション
          • ※複数ある場合は複数行表示
        • 最も近傍のアノテーション(Nearest)とピークと重なる(または一定領域内の)アノテーション(Overlapping)について
          • Image
          • 上図の三角がピークの位置、五角形(または矢印)の青または緑がアノテーション情報とします。
          • 'Nearest'は、範囲や方向に関わらず(デフォルトでは)TSSとの距離が最も短いものが選ばれます。
          • 'Overlapping'は一定距離(デフォルトでは距離0)の範囲内で重なる全てのアノテーションが全て選択されます。
        • insideFeatureの意味
          • Image
          • #表記意味
            1downstreamアノテーションの下流にピークが有る場合
            2Include featureピーク領域にアノテーションが包含される場合
            3Insideピークがアノテーションに包含される場合
            4overlapEndアノテーションの終了位置にピークが重なる場合
            5overlapStartアノテーションの開始位置にピークが重なる場合
            6upstreamアノテーションの上流にピークが有る場合
        • GenomeExplorerへのリンク
          • html版からのGEへの遷移
            csv版からのGEへの遷移
          • html版、csv版どちらも、右端近くの"GE link"列からGenome Explorerに遷移することができます。
          • html版ではwebページ上の"Link"ボタンを押せば別画面でサンプル選択済みのGenomeExplorerが起動します。
          • csv版ではLinkマスにあるURLをコピーしてブラウザで開くとサンプル選択済みのGenomeExplorerが起動します。
          • 後述するオプション値"addGELink dataset IDs"で指定されたサンプルなどのトラックが選択された状態で起動します。
          • 青線と、緑線矢印にあるように、リンクのあった行が表示されていることが確認出来るかと思います。
          • Genome Explorerでの参照方法は、こちらをご参照ください。
          • 現在のバージョンでは、GenomeExplorerへの遷移の度に、初期表示に戻ってしまうため、複数の領域を逐次的に見たい場合は、GenomeExplorerのsearch機能で、場所だけ移動すると便利です。
        • 開閉式の簡易フィルタと列説明
            • html版では、画面の左上開閉式の簡易フィルタの指定箇所(column filter)と、列の説明文(legend)があり、マウスでクリックするたびに開閉します。
        • 簡易フィルタとソート
          • 簡易フィルタ
            ソート
          • 画面左上の"column filter"をクリックすると開かれる選択ボックスやスライダーを利用すると、結果列をフィルタリングすることができます。
          • フィルタの例
            • ID列名によるフィルタ
            • ピークの所在地の染色体番号Xのみにフィルタ
            • Nearestアノテーション付けされる遺伝子名に"HOX"を含める
            • Overlapアノテーション付けされる遺伝子名に"CDK"を含める
            • Nearestアノテーションを"upstream"のみに限定する。
            • Overlapアノテーションを"upstream"を含むものに限定する。
            • ピークとアノテーションの距離を限定する。(例では1,233,066塩基以上)
          • html版の結果の任意のカラムラベルをクリックすると、その列で結果のソートが出来ます。
            • 図中の例では、染色体番号による降順(灰色の下三角が表示)と、Nearestアノテーションのdistanceによる昇順(灰色の上三角が表示)を記載しています。

      How to run this pipeline


        • 解析実行の流れの詳細はこちらをご確認ください。
        • 実行するプロジェクト内に入力となるアノテーション付加対象bed領域情報ファイルと、アノテーションファイル(bed形式)を準備しておきます。
        • アップロードしたファイルのデータアイコンの下の"Select"ボタンを押した後、"Analysis"ボタンを押します。
        • 選択されたファイルのデータ型に応じた解析の選択肢がリストされるので、その左のメニューから"Tools"-"ChIP-seq"を選び、このパイプラインを選びます。
        • 選択された入力ファイルの確認と、プロジェクト(ワークスペース)に誤りが無いかを確認します。
          • 特にアノテーション付加ターゲット領域のbedとアノテーションのbedの順番を間違えないよう気をつけて下さい。逆になっていた場合は、ドラッグアンドドロップで置き換えができます。
        • データがヒト(ゲノムバージョンhg19)で、GenomeExplorerへのリンクの機能を考慮する必要がない場合はオプションを設定せずに"Run"することもできますが、以下のような場合は、"Set option and run"を押して、オプション選択画面に遷移します。
          • 複数アノテーション付加のOverlapアノテーションの探索範囲を広げる場合。
          • ヒト以外の生物で実行する場合。
          • GenomeExplorerへのリンクを有効にするため、データID列を指定する場合。
          • その他、解析のカスタマイズを行いたい場合。
        • オプション選択についての詳細は下のOptionsの項目をご覧ください。

      Options




        • 設定可能な実行オプション値と説明は以下にあります。
        • 特にオプション自由入力欄に値を設定する場合は間違いやすいので、「解析条件の確認と実行ログの確認について」を参照して、トラブルシューティングする必要があるでしょう。
        • オプション番号オプション名重要性説明
          1.1ChIPpeakAnno annotatePeakInBatch output type-nearestStart:nearestStartのみ、overlapping:overlappingのみ、both:両方を指定します。
          1.2ChIPpeakAnno annotatePeakInBatch multiple-複数アノテーションが該当する場合に複数行を出力に含めるか否かを指定します。
          1.3ChIPpeakAnno annotatePeakInBatch maxgapOverlappingとみなす範囲を塩基単位で指定します。
          1.4ChIPpeakAnno annotatePeakInBatch PeakLocForDistance-distanceを計算する場合のピークの基準位置を(middle,start,end)指定します。
          1.5ChIPpeakAnno annotatePeakInBatch FeatureLocForDistance-distanceを計算する場合のアノテーションの基準位置を(TSS,middle,start,end,geneEnd)指定します。
          1.6ChIPpeakAnno annotatePeakInBatch select複数のアノテーションが該当した場合に、all:全て、first:最初の、last:最後の、arbitrary:任意のから選択します。allが初期値です。
          2.1GENOME_IDゲノムのバージョンで、GenomeExplorerへのリンクに利用します。GenomeExplorerを利用しない場合はこのオプションは何が設定されていても問題ありません。
          2.2addGELink dataset IDsGenomeExplorerのトラックのデータIDをカンマ","区切りで設定します。GenomeExplorerへのリンクに利用します。GenomeExplorerを利用しない場合はこのオプションは何が設定されていても問題ありません。
          2.3aggregatedOutFromChIPpeakAnnoToHtml.pl --suppress_names-レポートにnames列を含めない場合にチェックをオンにします。
          2.4aggregatedOutFromChIPpeakAnnoToHtml.pl --suppress_position-レポートにピークのゲノム上の座標に関する列を含めない場合にチェックをオンにします。ゲノム上の座標に関する列とはchrom,strPos,endPos,widthです。
          2.5aggregatedOutFromChIPpeakAnnoToHtml.pl --suppress_nearest-レポートに'Nearest'に関する列を含めない場合にチェックをオンにします。列名が'Nearest'で始まる列がこれに該当します。
          2.6aggregatedOutFromChIPpeakAnnoToHtml.pl --suppress_overlapping-レポートに'Overlapping'に関する列を含めない場合にチェックをオンにします。列名が'Overlap'で始まる列がこれに該当します。
          2.7aggregatedOutFromChIPpeakAnnoToHtml.pl --suppress_links-レポートにリンク列を含めない場合にチェックをオンにします。
          2.8aggregatedOutFromChIPpeakAnnoToHtml.pl --suppress_others-レポートにその他の列を含めない場合にチェックをオンにします。

      Comments


        • このパイプラインでは、予測バインディングサイトを幣所開発のゲノムビューワ(GenomeExplorer)にインポートして可視化するために、予めビューワに登録された生物種のゲノムバージョンを選択する必要がありますが、この機能を無視し、使用する生物種に対応するアノテーション情報と、ピークコール結果を使用すれば、その他の生物でも利用できるはずです。ゲノムの選択肢があり、利用できない場合はご連絡下さい。

      Use case


        • この説明ページで使用されているデータは、ENCODEプロジェクトが公開しているGSM1010826細胞株での転写因子FOXA1のChIP-Seqデータ(SRR577861(external link))とそのコントロールデータ(SRR577663(external link))を入力として、MACSのデフォルトオプションで検出されたピークに対してiGenome由来の遺伝子アノテーション付加を行っています。

      Related Tools