Platform for Drug Discovery



各種既知遺伝子アノテーション用GTFファイル


目次

暫定的な記載について




GENCODEプロジェクトサイトからの既知遺伝子アノテーション情報の取得とMaserへのアップロード方法


  • GENCODEプロジェクトサイトからヒトゲノム遺伝子アノテーション情報を取得できます。
  • ここではヒトゲノムのバージョンhg19に対するGTF形式の最新のGENCODE release 19を取得し、Maser上へアップロードする方法を説明します。

GENCODEプロジェクトサイトから遺伝子アノテーションデータの取得


    1. The GENCODE ProjectのWEBページにアクセスします。
      • Image
      • 左のメニューから"Data"を選択し、過去のバージョンをダウンロードするためのリンクをクリックします。
    2. リストから必要なバージョンのアノテーションデータを選んでリンクをクリックします。
      • Image
      • ゲノムのバージョンがhg19の場合は"UCSC version"の列が19(current for GRCh37)と記載のあるものから選択します。
      • "GENCODE release"の数値が大きい方が新しいデータです。
      • ゲノムのバージョンがhg38の場合は"UCSC version"の列が20(current for GTCh38)と記載のあるものから選択します。
      • 今回はhg19用の最新のrelease 19を選択します。
    3. 遺伝子アノテーションである"gencode.v19.annotation.gtf.gz"をクリックしてダウンロードします。
      • Image
    4. ダウンロードされたファイルを確認します。
      • Image
      • ファイルはgzip形式で圧縮されています。
      • このままアップロードするとMaser内部でgzip圧縮状態が自動的に解凍されますので、解凍しておく必要はありません。

Maserへのデータアップロード

  • Maserにデータをアップロードするために、詳細はこちらのページをご覧ください。
  1. アップロード対象のプロジェクト画面を開き、"Upload My Data"ボタンを押します。
    • Image
    • 今回のような小さいデータのアップロード時はHTTPプロトコルを選択する方が簡単です。
  2. データタイプを選択し、アップロードするデータのプロパティを記入します。
    • Image
    • Data Label:データラベルにはデータ識別のための任意の名前を記入して下さい。
    • Data Type:データタイプにはgtfを選択します。
    • Data File:ご自身のコンピュータ上からダウンロードしたデータを選択します。
  3. アップロードボタンを押します。
    • アップロードボタンを押した後、ファイルアップロードと解凍処理が進みます。
    • 数秒後アップロードが終了します。
    • "Open Project Detail window"ボタンを押します。
  4. プロジェクト詳細画面(Project Detail)の下の方に、アップロードされたデータのアイコンが確認できます。
    • Image
    • これでアップロードは終了です。

CufflinksのWEBサイトや、IlluminaのWEBサイトからのiGenome既知遺伝子アノテーション情報の取得とMaserへのアップロード方法


  • 有名な遺伝子構造解析プログラムのCufflinksのサイトやIlluminaのサイトからヒトゲノム遺伝子アノテーション情報を取得できます。
  • ここではヒトゲノムのバージョンhg19に対するUCSCのアノテーションをベースとしたiGenomeのデータ群を取得し、そこから遺伝子アノテーションデータを抽出し、抽出したGTF形式のアノテーションデータをMaser上へアップロードする方法を説明します。

CufflinksのWEBサイトからのiGenomeの取得


  1. CufflinksのiGenomeに関するのWEBページにアクセスしてデータをダウンロードします。
    • Image
    • この例ではData sourceがUCSCで、ゲノムのVersionがhg19のデータをダウンロードします。
    • 合計21ギガバイトにもなるので、ディスクの空き容量や、ネットワーク通信負荷にご注意ください。
  2. ダウンロードしたファイルを確認します。
    • Image
    • tar.gz(またはtgzとも呼ばれる)形式で圧縮されています。
    • ゲノム配列や、多型関連情報など様々な情報が一つに同梱されているので結果的に大きなファイルサイズになっています。

IlluminaのWEBサイトからのiGenomeの取得


    1. IlluminaのiGenomeのWEBページにアクセスしてデータをダウンロードします。
      • Image
      • ここでは、この例ではsourceがUCSCで、ゲノムのBuildがhg19のデータをダウンロードします。
      • 本質的には上記のCufflinksのサイトと入手できる情報の種類に違いはないはずですが、こちらのサイトの方が多くの生物種の情報を取り扱っています。
    2. ダウンロードしたファイルを確認します。
      • Image
      • ダウンロードできるファイルは上記のCufflinksのページと基本的には同一です。

    圧縮アーカイブデータからの必要情報の抽出(Windowsの場合)

      • iGenomeのデータはtgzという、UNIX/Linuxの世界でよく使われる圧縮形式でデータが格納されています。
      • tgz形式のデータを解凍できるフリーソフトはたくさんありますが、今回のように巨大なファイルから特定の情報だけを抽出する用途に利用できるものはなかなかありません。
      • ここでは、Windowsパソコン上でUNIX/Linux仮想環境を実現するCygwinを用いて情報抽出する方法を記載しています。
    1. Cygwimの準備
      • 以下のリンク先の手順でCygwinをインストールします。
      • NGS Surfer's Wiki(Cygwin環境構築)
      • Cygwinのインストールは圧縮解凍だけを行うフリーソフトをインストールするよりは手順が複雑になっています。
    2. Cygwinの起動と作業フォルダへの移動
      • Image
      • Cygwinのアイコンをクリックして起動します。
      • Image
      • iGenomeをダウンロードしたフォルダのアドレスバーを右クリックし"アドレスをテキストとしてコピー"をクリックします。
      • Cygwinを起動しcd "と入力した後、右クリックして先ほどコピーしたアドレスを貼り付け(Paste)します。
      • ペースト後、"を入力しENTERボタンを押します。
      • するとCygwin上の作業ディレクトリがiGenomeのデータが存在する場所に移動します。
      • Image
      • 試しに"ls"とコマンドを入力すると、iGenomeのファイルがリストアップされます。
    3. 必要なファイルのリストの抽出
      • Image
      • 以下のようにtar tvzfコマンドを実行すると、iGenomeに含まれるファイルの一覧を作成できます。
        • tar tvzf Homo_sapiens_UCSC_hg19.tar.gz > filelist.txt
          
          grep -i gtf filelist.txt
      • filelist.txtというファイルにiGenomeに含まれる全てのファイル名とそのファイルパス(格納先の入れ子フォルダ)の一覧を書き込んでいます。
      • grepコマンドを利用するとファイル一覧の中から遺伝子アノテーションファイルである"gtf"ファイルのみを選択してリストすることができます。
      • ここでは、作成日時の異なるいくつかのアノテーションファイルがリストされています。
    4. 最新のアノテーションファイルの抽出
      • Image
      • tar xvzf Homo_sapiens_UCSC_hg19.tar.gz Homo_sapiens/UCSC/hg19/Annotation/Archives/archive-2014-06-02-13-47-56/Genes/genes.gtf
      • tar xvzfコマンドを実行時に、先ほど調べたファイルの場所を指定すると、そのファイルのみ、圧縮されたデータファイルの中から抽出することができます。
      • ここでは、日付が最新のgene.gtfを一つだけ抽出しています。
      • 抽出するコマンド実行後に、lsコマンドで確認すると新たに"Homo_sapiens"というフォルダがリストに追加されていることが分ります。
      • Image
      • windowsのエクスプローラーから確認しても同様に"Homo_sapiens"フォルダが確認できます。
      • Image
      • この"Homo_sapiens"フォルダの中にさらに、"UCSC"-"hg19"-"Annotation"-"Archives"-"archive-2014-06-02-13-47-56"-"Genes"とフォルダが入れ子になっており、最後に"genes.gtf"ファイルが見つかります。
      • Image
      • このファイルを最初のディレクトリに移動し名前をわかりやすいように"iGenome.ucsc.hg19.20140602.genes.gtf"に変更しています。
      • (".gtf"で終わるファイル名であれば任意に名前を変えて問題ありません。)
      • これでiGenomeのgtfファイルの抽出は終了です。

    圧縮アーカイブデータからの必要情報の抽出(Macの場合)


        • 上記windowsに実施したtar tvzfから、tar xvzfの部分をMacのターミナルに上で実行します。

    Maserへのデータアップロード

      • Maserにデータをアップロードするために、詳細はこちらのページをご覧ください。
    1. アップロード対象のプロジェクト画面を開き、"Upload My Data"ボタンを押します。
      • Image
      • 今回のような小さいデータのアップロード時はHTTPプロトコルを選択する方が簡単です。
    2. データタイプを選択し、アップロードするデータのプロパティを記入します。
      • Image
      • Data Label:データラベルにはデータ識別のための任意の名前を記入して下さい。
      • Data Type:データタイプにはgtfを選択します。
      • Data File:ご自身のコンピュータ上からiGenomeから抽出したgtfファイルを選択します。
    3. アップロードボタンを押します。
      • アップロードボタンを押した後、ファイルアップロードが行われます。
      • 数秒後アップロードが終了します。
      • "Open Project Detail window"ボタンを押します。
    4. プロジェクト詳細画面(Project Detail)の下の方に、アップロードされたデータのアイコンが確認できます。
      • Image
      • これでアップロードは終了です。