Loading...
 
印刷
日本語

配列ファイルサイズの見積もり

記載の動機

  • 高速シーケンサーの出力サイズは増加の一途ですが、自身のプロジェクトでどの程度の規模のファイルが算出され、保存する必要があるかを見積もるには正確なファイルサイズの指標が必要です。
  • ファイルサイズは、生データ、公開データ、シーケンサープラットフォームなどによっても変わり得ますが、実際どうであるか実測する機会もあまりないと思うのでまとめたデータを公開します。

塩基数と非圧縮ファイルサイズの関係

  • 国立遺伝学研究所のNGS解析プラットフォームMaserに登録されているデータの一部を用いて非圧縮のfastqまたはcsfasta+qualファイルサイズの合計と総塩基数の関係を調べました。
  • Image
    • カテゴリ分けしていませんが、いくつかの傾きの異なるデータの群が見て取れます。
  • Image
    • 対数軸を取ると分布の全体が分かります。
    • 大きく外れている垂直に並んだ点は、算出に使用したFastQCの塩基数算出が、うまく機能しなかったデータのようです。
    • シーケンサーごとのカテゴリわけされたデータに興味があるなど、コメントありましたらtwitterアカウント@nob_fjまで連絡くだされば、対応するかもしれません。

HiSeq2500の塩基数とbz2圧縮ファイルサイズの関係

  • 以下のLifeScienceQAの質疑で出ているHiSeq2500のファイルサイズについて算出しました。
  • DRAからたどれるアーカイブにbz2圧縮したデータファイルサイズと塩基数の関係を網羅的に調べています。
  • Image
  • 切片は小さいので無視すると、1塩基あたり0.727バイトで見積もれるようです。
  • 非圧縮時の参考情報として、網羅的ではないですが以下のデータの圧縮率を元に算出すると、下の式のように、およそ1塩基あたり4.52バイト程度で見積もれそうです。
    • Image
    • (58.1 / 9.35)[Gbyte/Gbyte] x 0.727[byte/base] = 4.52[byte/base]

Last edited by nobfujii .
Page last modified on 水曜日 08 of January, 2014 11:44:32 JST.