Platform for Drug Discovery


TopHat2, CuffLinks2 and CummeRbund + GE (SE) for SAGE


Introduction


    This pipeline use one of the standard tools in this field, TopHat-cufflinks. It will be useful for the data to analyze first time. For the detection of de novo splicing variants, this pipeline add GO annotations and report high frequent entries.



    Input formatFASTQ (Illumina, IonTorrent, 454)
    Library layoutFor single-end read only
    SpeciesHuman, Rat, Mouse, Drosophila
    Execution timeAbout a few days

Table of contents

Inputs


  • ファイルはシングルエンドのFASTQファイルを2~30サンプルの範囲で入力可能です。
  • FASTQについては、 このページ をご覧ください。
  • アップロードするファイル名にスペース「 」や、カッコ「(」、クオーテーション「'」などといった文字や日本語は使えません。(アップロードできても、解析時にエラーになります。) アルファベット+数字+アンダーバー「_」で名前を付けてください。
  • 各FASTQファイルがそれぞれ50GB以下であれば、経験的には当サーバで解析可能です。ただし、ファイルサイズによって、解析時間が延びるため、手早く結果を見るには、それぞれ数GB程度の大きさにダウンサンプリングするとよいかもしれません。

Outputs


    実行例1
    Image


    1.解析レポート(Genome Explorer)
    Image
    TopHatによるマッピング結果をGenome Explorerで可視化
    解析レポート(CummeRbund Density Plot)
    Image
    各サンプルの発現量の分布
    解析レポート(CummeRbund Dendrogram)
    Image
    サンプル間の類似性
    解析レポート(CummeRbund Scatter Plot)
    Image
    サンプル間の総当たり散布図
    解析レポート(CummeRbund Volcano Plot)
    Image
    サンプル間の総当たりVolcano Plot
    解析レポート(CummeRbund Cluster Plot)
    Image
    クラスタリング結果
    解析レポート(GOseqレポート)
    Image
    GOアノテーション後のHTMLレポート
    解析レポート(REVIGO)
    Image
    GOseq→REVIGOでGO Termの可視化
    解析レポート(発現量テーブル)
    Image
    発現量一覧(tsvファイル(Excelにて閲覧可能))
    2.TopHat-CuffLinks付随情報(スプライスジャンクション)
    Image
    TopHatのSplice junction部位リスト(BED形式)
    TopHat-CuffLinks付随情報(Insert)
    Image
    TopHatの挿入塩基部位リスト(BED形式)
    TopHat-CuffLinks付随情報(Deletion)
    Image
    TopHatの欠失塩基部位リスト(BED形式)



How to run this pipeline


    1.まずはMASERにログインし、Projectの一覧を表示させます。「Create New Project」をクリックし、新しいプロジェクトを作成します。
    Image


    2.プロジェクトの名前を付け(ここでは仮に「human SAGE-seq」とします)、OKを押します。
    Image


    3.作成したプロジェクトをクリックし、ページを開きます。
    Image


    4.プロジェクトを作成したら、次は入力ファイル(ここではFASTQファイル)をアップロードします。「Upload Data」をクリックしてください。
    Image


    5.ファイルの転送プロトコルを選択します。通常はHTTPSのほうをクリックすれば大丈夫です。
    Image


    6.Dataのラベル名(ここではERR030872.fastq)、Dataの種類(ここではfastq (single-end))、そしてアップロードするファイル(ここではC:\ERR030872.fastq)を選択します。
    Image


    アップロードするファイル名には次のような制限があります。
    スペース「 」や、カッコ「(」、クオーテーション「'」などといった文字や日本語は使えません。アルファベット+数字+アンダーバー「_」で名前を付けてください。

    また、FASTQファイルのクオリティにはいくつか種類があります。自分のデータがどの種類なのか分からない場合には、FASTQCなどのツールを先に使用して下さい。FASTQCの「Basic Statistics」項目で「Sanger / Illumina 1.8」などと表示されれば特に気にすることはありませんが、もしもIllumina 1.3 - 1.7の場合には、後述のtophatのオプション設定時に「--phred64-quals」を指定する必要があります。

    ほかにも発現量を比較したいサンプルがある場合、「Add file」ボタンをクリックし、追加します。「Upload」ボタンをクリックします。


    7.今回は、3つのデータをアップロードしました。
    データの下に表示されている「Select」ボタンを3つとも順にクリックしてください。
    クリックした順番に後ほど結果が並ぶので、見たい並び順となるように選択してください。
    Image


    8.別ウインドウに選択されたファイルの一覧が表示されているかと思います。「Analysis」ボタンをクリックします。
    Image


    9.「SAGE-seq」を選択し、右のパイプラインリストの中から1つ選んで下さい。同じ名前のパイプラインが複数ある場合は、バージョンが新しい方をお選び下さい。
    Image


    10.下にスクロールすると、入力ファイルの一覧が表示されます。「Set option and run」をクリックして下さい。
    Image


    11.オプションで変更可能な項目を説明します。
    必ず確認しなければいけないのは、使用するリファレンスの名前(ヒトであればhg38, マウスであればmm10など)です。また、アノテーションの種類を「refGene」、「ensGene」から選択できますが、多くの場合「refGene」のほうが無難です。
    先ほど選択したファイルの順番に従って、サンプル名を「input1 sample name」から入力してください。テクニカルリプリケートがある場合には、テクニカルリプリケートを同じサンプル名にしてください。また、名前はアルファベットから始まる、アルファベット+数字+「_(アンダーバー)」で名前をつけてください。なるべく10文字以内にして下さい(11文字以降は結果ファイルにおいて表示されないことがあります)
    他のオプションも一通り確認して問題なければ、ページの最下部にある「Run」ボタンを押してください。
    Image

Result explanation


    1.結果や進行状況を見るには、プロジェクトページを開いて、「Module Flow View」をクリックしてください。解析が終了したモジュールや、解析途中のモジュールが出現します。
    Image

    2.Module Flow viewにすると最終結果レポートが一番右に表示されます(赤枠)。アイコンをクリックし、解析結果のレポートを表示させます。
    Image

    3.上記の赤枠で囲まれたアイコンをクリックすると、まず一番上に、TopHatでゲノムにマッピングされた結果がGenome Explorerで表示されています。別のウィンドウで開く場合には、「In a new window」をクリックしてください。Genome Explorerの使い方についてはこちら またはこちら を参照してください。
    Image

    4.下にスクロールしますと、サンプルごとに遺伝子の発現量の分布がヒストグラムとbox plotで表示されます。
    Image
    Image

    5.その次には遺伝子の発現パターンからサンプル間の類似性をクラスタリングした結果が表示されます。テクニカルリプリケート間が最も近い距離にあるか、などを確認できます。
    Image

    6.その次は、二群間で遺伝子発現量について総当たりの散布図、Volcano Plotが表示されます。
    Image
    サンプル間の総当たり散布図

    Image
    サンプル間の総当たりVolcano Plot


    7.次は、いずれかの二群間比較で有意差のあった遺伝子を集めて、発現パターンで遺伝子をクラスタリング(k-means)した結果が表示されます。
    Image

    8.それぞれのクラスターごとに特徴的なGOをGOseqで抽出した結果へのリンクが表示されます。
    Image
    たとえば、3番のクラスターに特徴的なGOのリストを表示させるには、「cluster: 3」をクリックしてください。すると、GOseqで遺伝子長のバイアスなどを考慮した上で、有意に出現頻度が増加しているGO、減少しているGOのリストが表示されます。GOseqはバックグラウンドとして、5.のステップで選択した生物種が持っているGOを使用します。そのため、生物種と遺伝子アノテーションの種類によってはGOseqのデータベースに存在しないため、GOseqの結果が存在しません。今のところ、ヒト、マウス、ショウジョウバエでRefGeneアノテーションを選択した場合には、結果を確認しています。ほかの生物種、アノテーションへの対応をご希望の場合には、メールをいただけますと対応を検討いたします。
    Image

    9.各クラスターに特徴的なGOを、よりわかりやすくするために、GOseqの結果をREVIGOに入力します。8.で「p-value < 0.001 Revigo」のボタンをクリックします。
    Image
     REVIGOのウェブサイトが開かれ、クラスター3でp-value 0.001未満のGOリストが入力されている状態であると思います。画面下の方にある「Start Revigo」をクリックしてください。
     この際に、そのクラスターに含まれるコンティグ数が少ないなどの理由で、有意に出現頻度が上昇しているGOが0であることもあります。その際には、1つ戻って、「full Revigo」のほうをクリックすると、すべてのリストが入力されます。
     次の図はREVIGOのTreeMapの図です。
    Image

    10.解析結果レポートの上半分は遺伝子単位で発現量を見たときの結果で、下半分はトランスクリプト単位で発現量を見たときの結果が表示されています。新規のスプライスバリアントを見る場合にはトランスクリプト単位で見てください。ただし、トランスクリプト単位では擬陽性が多くなる傾向があるため、確実性を優先する場合には遺伝子単位で見た方がよいです。


    11.発現量などのテーブルは、遺伝子単位の場合レポートページの中央に、トランスクリプト単位の場合一番下に、結果へのリンクが表示されています。

    Image
    リンクをクリックして、タブ区切りのテキストファイルをダウンロードし、エクセルなどで開いてください。
    ファイルを開くと、一番左の列に「tracking_id」という列があります。これはCuffLinksが予測した遺伝子もしくはトランスクリプトのIDです。そして、これらの遺伝子(もしくはトランスクリプト)の近傍にある既知遺伝子の遺伝子名が、「gene_short_name」の欄に表示されます。また、遺伝子(もしくはトランスクリプト)の染色体上の位置や、長さも表示されます。気になる発現パターンの遺伝子については、この染色体上の位置をGenome Explorerで見てみることもできます。
    Image

    次にCuffDiffが計算した、各サンプルの発現量(FPKM)が記述されています。FPKMとは1 kbpあたり、100万リードあたりの補正されたリード数で、原理的には異なるサンプル間の比較、異なる遺伝子間の比較ができるように補正された値です(ただし、実際には各種のバイアスにより、FPKMの値をそのまま比較することは難しいケースが多いです)。
    ※SAGE-seqではライブラリ作成の原理から、1つのトランスクリプトから1つのタグしか産出されません(トランスクリプトを制限酵素で処理したのち3’端のタグのみを解読するため。RNA-seqでは1つのトランスクリプトをばらばらにして解読するため複数のリードが産出されます)。
    ※したがって、本パイプラインでは遺伝子長での補正は行っておりません。

    Image

    そして、CuffDiffの発現量のあとには、CummeRbundでクラスタリングされたクラスターの番号が表示されています。このクラスターの数字は、7,8の図と対応しています。その次からは、CuffDiffによる二群間比較解析の総当たり結果が表示されています。

    Image

    最後の3つのカラムには、refseqのgene ID、Entrezのgene ID、gene idに紐付いたGOのリストが表示されます。

    Image

    12.エクセルの機能で「cluster」番号でフィルタリングすることで、興味のある発現パターンの遺伝子リストを得ることができます。

Workflow


    TopHatによるマッピングを行った後、CuffLinksにて新規の遺伝子予測を行い、既存の遺伝子の発現量とともに発現量を出力する。
    さらにCuffDiffによる二群間比較を行い、その結果をCummeRbundでグラフ化する。
    また、GOseqによるGO解析を行い、各クラスターで有意に出現頻度が上昇しているGOを抽出し、REViGOにより可視化する。

Related information