Platform for Drug Discovery


TopHat


ジャンクションマッピングソフトTopHatについて


ツールの概要(主要機能)


    既知のスプライスジャンクション情報を利用せず、リード情報に基づいて、
    ジャンクションマッピングを行うソフトウェア

バージョンごとの違い


    重要
    2010年11月現在のバージョンは、1.1.4であるが、前バージョンである1.1.3では、
    パッケージ中のプログラムが1.1.0であるというバグを報告した。
    筆者らの報告により、直ぐにバグ修正が行われたようであるが、
    1.1.4以前より利用しているユーザは注意が必要である。

    #####################################
    
    [suimye@Brahms tophat-1.1.3.Linux_x86_64]# ./tophat -v
    TopHat v1.1.0
    #####################################
    Previous version:
    [suimye@Brahms tophat-1.1.2.Linux_x86_64]# ./tophat -v
    TopHat v1.1.2
    #####################################


機能


    Top-Hatは、既存のmRNAアノテーション情報を利用せずにスプライシングジャンクションを検出する方法である。
    リードを短く断片化したものをゲノムマッピングすることで、
    ゲノムマッピング効率を高める工夫なされいるジャンクションマッピングソフトウェアである。
    マッピングアルゴリズムはBowtieを利用しており、ジャンクションマッピング後の情報から、遺伝子構造を推測し、
    遺伝子を同定するCufflinks(external link)への解析ワークフローが整っていることも利点の一つである。
    また、既知のスプライシングジャンクションを利用したジャンクションマッピングも可能となっている。

アルゴリズムの説明


    NGSのシーケンシング長が約100bpほどであるが、ほとんどのエクソンはこれよりも短く、
    ゲノムマッピングする際に正しくマッピングできない。これを改善するために、
    TopHatでは、リードを短く断片化してそれぞれを独立にマッピングする工夫がしてある。
    この断片化された互いの断片化アライメントは、最終ステップにおいて、
    端から端までのリードアライメント作成を行うことで再度結合させている。

    Top-Hatは、既存のmRNAアノテーション情報を利用する既知のジャンクション情報を利用したマッピング
    だけではなく、下記のステップを利用して、スプライシングジャンクションを推定し、転写産物を同定することができる。
    ジャンクションの推定は、まず、初めのリードのマッピングプロセスにおいて、スプライスジャンクションと
    考えられるゲノム位置のデータベースを構築する。このデータベースに対してリードをマッピングすることで、
    スプライスジャンクションの再確認を行い同定を行っている。

    より詳細なsplice junctionの作成過程(三段階で行う):
    1. 異なる領域に積み上げられたリードでつくった島同士でのペアリング
    2. ペアエンドのみであるが、転写産物上にある一つのペアが異なるエクソン由来であるとき、その一部のリードの領域をゲノム座標をさらに遠い位置へマッピングする。この際、本プログラムでは、あらかじめプログラムに与える「ペア間の距離の期待値」に等しくなるペアの中で、部分配列を探索する(この時の部分配列の中のイントロンは、 データベースの中へ入れておく)。
    3. 1つのリード由来の2つのセグメントが遠い部分にマップされた場合と、間に入るべき部分配列がマップに失敗した場合をスプライスジャンクションの根拠とする。75bp以上のリードの時、GT-AG, GC-AG, AT-ACルールに従って配列検索を行う。そのうちの最も短いものを、GT-AGイントロンの間のアライメントとして採択する。

入出力形式について


  1. 入力ファイルはfastaq。ただし、SOLiDの場合は専用のBowtie indexをダウンロードして利用する必要がある。
  2. 出力ファイルはBEDファイル(本家のマニュアルには、SAMファイルとあるが廃止されている。)。ただし、中身の並び順序などが通常のBEDファイルと異なる(junction mappingの情報が中にある)ので、他のツールに利用する時は、自分で整形する必要がある。
    • 75塩基以上で最適化されている。
    • リードの最大長は1024。
    • TopHat1.1.0以上でAB colorspaceに対応。
    • short-indelは非対応。(一時対応していた時期もある模様)
    • single-endとpaired-endの混在は非対応。
    • 条件の異なるリードを1回のtophat実行に混在させることは非推奨。条件の異なる複数のリードのjunction情報を考慮させたい場合は2回に実行を分けて、2回目の実行時に-jオプションでjunction情報を指定する。

インストール手順


  1. BAM形式での出力を行うため変換用のスクリプトライブラリSAM toolsと、Python(ver. 2.4以上)を必要とする。

    tar zxvf tophat-1.1.4.tar.gz
    
    cd tophat-1.1.4/ 
    
    #必要であれば、オプション --prefixを利用してconfigureする。
    
    ./configure --prefix=/path/to/install/directory/
    
    make install


利用法


  1. Bowtieを利用したマッピングを利用するので、あらかじめBowtieのインデキシング済みデータ(例では)を用意しておくと良い。
    tophat -r 20 --solexa-quals -p 4 ./hg19 /home/suimye/test_rnaseq/TNF_nfk-b/SRR038297.fastq

Illumina用single endデータを用いる場合

  • Illumina/solexaの1.5以前のバージョンの生データを使用する場合は"--solexa-quals"か"--solexa1.3-quals"を使用する必要があるものと思います。SRAのデータなどでも、場合によっては、qualityのbaseが64になっている場合があるので、その場合は"--solexa1.3-quals"あるいは"--phred64-quals"を付加します。
  • 既知アノテーション不使用
    • /toolDir/tophat-1.3.1.Linux_x86_64/tophat -p 14 -o ./out/illuminaSingle1 /dataDir/genomes/hg19multi/bowtie-0.12.7/hg19.fa data/illuminaSingle1/ERR030899.fastq
  • 既知アノテーション使用
    • /toolDir/tophat-1.3.1.Linux_x86_64/tophat -p 14 -G /dataDir/gene/hg19/hg19_refFlat.gtf -o ./out/illuminaSingle1_withAnn /dataDir/genomes/hg19multi/bowtie-0.12.7/hg19.fa data/illuminaSingle1/ERR030899.fastq

Illumina用pair endデータを用いる場合

  • 既知アノテーション不使用
    • /toolDir/tophat-1.3.1.Linux_x86_64/tophat -p 14 -r 174 -o ./out/illuminaPair1 /dataDir/genomes/hg19multi/bowtie-0.12.7/hg19.fa data/illuminaPair1/ERR030887_1.fastq data/illuminaPair1/ERR030887_2.fastq
  • 既知アノテーション使用
    • /toolDir/tophat-1.3.1.Linux_x86_64/tophat -p 14 -r 174 -G /dataDir/gene/hg19/hg19_refFlat.gtf -o ./out/illuminaPair1_withAnn /dataDir/genomes/hg19multi/bowtie-0.12.7/hg19.fa data/illuminaPair1/ERR030887_1.fastq data/illuminaPair1/ERR030887_2.fastq

SOLiD用color spaceのsingle endデータを用いる場合

    • bowtieのインデックスはsolid用にbowtie-build -Cで作成したものを使用します。
    • 既知アノテーション不使用
      • /toolDir/tool/tophat-1.3.1.Linux_x86_64/tophat --color --quals -p 14 -o ./out/solid1/ dataDir/genomes/hg19multi/bowtie-0.12.7_forSolid/hg19.fa data/solid1/SRR015181.csfasta data/solid1/SRR015181_QV.qual
    • 既知アノテーション使用
      • SOLiDのディレクショナルなRNA-Seqの場合は"--library-type fr-secondstrand"を付けます。
      • /toolDir/tophat-1.3.1.Linux_x86_64/tophat --color --quals --library-type fr-secondstrand -p 14 -G /dataDir/gene/hg19/hg19_refFlat.gtf -o ./out/solid1_withAnn_second /dataDir/genomes/hg19multi/bowtie-0.12.7_forSolid/hg19.fa data/solid1/SRR015181.csfasta data/solid1/SRR015181_QV.qual

SOLiD用color spaceのpaired endデータを用いる場合

  • bowtieのインデックスはsolid用にbowtie-build -Cで作成したものを使用します。
  • 既知アノテーション不使用
    • /toolDir/tool/tophat-1.3.1.Linux_x86_64/tophat --color --quals -p 14 -o ./out/solidPair1/ dataDir/genomes/hg19multi/bowtie-0.12.7_forSolid/hg19.fa data/solidPair1/SRR063693_1.csfasta data/solidPair1/SRR063693_2.csfasta data/solid1/SRR063693_1_QV.qual data/solid1/SRR063693_2_QV.qual

オプション


    -r ペアエンド間で期待される平均的な距離を与える(上記の例では、原著によれば100 bpのbinとされているので、34bp X2の70bpを差し引いた30 bpとなる)。
    -p スレッド数。必要に応じてスレッド数を変更することができる。
    -o 出力ディレクトリ指定
    -h ヘルプ
    -v バージョン
    --mate-std-dev mate間の距離の分布の標準偏差(defaultでは20 bp)。
    -a アンカー長の最小値(default 8 bp)。TopHatでは、ジャンクション両側の配列長が少なくともこの長さ以上になることを前提とする。ある1つのジャンクションにmappingされたリードの中で、ジャンクションの片側のリードが本設定値よりも短かい場合が想定される。このような場合も、TopHatでは、少なくとも1つのリードがアンカーの最小値条件を満たす場合には、このジャンクションを検出するようになっている。
    --color --qualscolorspace用。csfastqファイルでなく、csfasta+qualファイルを入力とします。
    --library-type ディレクショナルなライブラリかどうかを指定。
    "--library-type fr-unstranded":Illumina標準用。ディレクショナルでない場合。転写産物の順鎖方向の左端か、転写産物の逆鎖の右端にマップされる場合。
    "--library-type fr-firststrand":dUTP, NSR, NNSR用。ディレクショナル。転写産物の逆鎖の右端にマップされる場合。
    "--library-type fr-secondstrand": ライゲーション、SOLiD標準用。ディレクショナル。転写産物の順鎖の左端にマップされる場合。
    関連情報1:One Tip Per Day(How to tell which library type to use (fr-firststrand or fr-secondstrand)?)(external link)
    関連情報2:ライフサイエンスQA(strand specific RNA-Seqデータ解析におけるtophatの利用について)(external link)
    --butterfly-searchtophat butterflyオプションの比較
    ライフサイエンスQA(Tophatのbutterflyオプションについて)(external link)

    • defaultパラメータは哺乳類RNA-Seqに最適化されているので、他の生物を使用する場合はより厳しいパラメータを設定した方が良いらしい。

参考



関連サイト



文献


説明ページリンク




Contact us
Copyright © 2009-2017 National Institute of Genetics  [Site Policy] [Privacy Policy]