Loading...
 
印刷
日本語

Sprai

第三回現場の会「de novoの達人」企画 笠原先生(external link)の解析フロー


まずは、ツールのインストールなど、環境を整えることからはじめる。
マシンスペックとしては、今回はCPU: Xenon 8コア、メモリー: 70GBで行っている。
必要となるマシンスペックについては、対象とする生物のゲノムサイズと、シーケンスの量に依存する。
今回は約5 Mbaseのゲノムである原核生物を対象としてx200のデータを用い、アセンブルを行った。
DDBJのスパコン上でも動作することを確認している。(ただし、ジョブを実行させる際には、qsubでジョブを投げるようにする必要がある)

対象とするOSはCentOS、もしくはRed Hat Enterprise Linuxである。

基本的には、PacBio社からSMRT-Analysis(external link)と、SpraiのHPからSprai(external link)をダウンロードし、インストールすればよい・・・のだが、躓くステップが多いので、少しでもインストールを簡便にするため、笠原先生が作成されているLPM(external link)を用いる。

試しに使える入力ファイルは、ここ(external link)のページにある、E. coliのデータ(external link)などがあります。(thanks to 大崎様)
このデータを用いた場合、下記の手順を行うと全部で25本のコンティグができ、その中で10kbp以上のBigContigsと分類されたコンティグはたったの1本となった。

#まずは、LPMのインストール。
wget http://www.kasahara.ws/lpm/lpm
chmod +x ./lpm
./lpm initlocaldir
rm lpm #いらなくなった最初のファイルを削除
exec $SHELL -l

#SMRT-Analysisおよび、Sprai (Spraiに必要なBlast+なども含む)のインストール。
lpm install compiler-envs
lpm install zlib
lpm install blast+
lpm install sprai
lpm install smrtanalysis-centos   #ダウンロードにかなり時間がかかるので辛抱強くまつ

$SHELL #再度ログインしなおすか、シェルを立ち上げなおす
#SMRT-Analysisに内蔵されている各種ツールを最新版にアップデートする。
#pbcoreは、pbh5toolsをインストールするのに必要。
git clone https://github.com/PacificBiosciences/pbcore
cd pbcore
python setup.py install
cd ..

#bas.h5 -> fastqへとsubreadを抽出するプログラムをインストール。
#pbh5toolsはなぜか古いバージョンを上書きしてくれないらしいので、古いバージョンを退避。
mv ~/lcl/opt/smrtanalysis/current/analysis/lib/python2.7/pbtools.pbh5tools-0.75.0-py2.7-linux-x86_64.egg ~/lcl/opt/smrtanalysis/current/analysis/lib/python2.7/obsolete.pbtools.pbh5tools-0.75.0-py2.7-linux-x86_64.egg

git clone https://github.com/PacificBiosciences/pbh5tools.git
cd pbh5tools
make install
cd ..
#インストールの確認
bash5tools.py --version
#bash5tools.py 0.75.0 のように表示されればOK

#bas.h5 -> fastqへの変換
i=ecoliK12/Analysis_Results/m130404_014004_sidney_c100506902550000001823076808221337_s1_p0.bas.h5
bash5tools.py --outFilePrefix ${i%%.*} --readType subreads --outType fastq --minReadScore 0.75 --minLength 500 $i

#もしもbas.h5が複数ある場合には、上のコマンドのi= ... の箇所を、bas.h5の数だけ変更し実行する。

#fastqを一つにまとめる。
cat *.fastq > all.fq

#Spraiによるアセンブル
#設定ファイルを2つコピーし、必要に応じて編集する。
wget https://raw.github.com/PacificBiosciences/HBAR-DTK/master/etc/asm.spec
cp ~/lcl/build/sprai-0.9.5/ec.spec .

#asm.specは特に編集する必要はないが、ec.specは数箇所変更する必要あり。
#下記の例は、ユーザ名:username の場合。
--------------------------------------------------------------
#### common ####
input_fastq all.fq

estimated_genome_size 2e+7 <-- 想定ゲノムサイズより大きい値に変更

ca_path /home/imai/wgs/Linux-amd64/bin/ <-- /home/username/lcl/opt/smrtanalysis/current/analysis/bin/ に変更
                 ・
                 ・
               (中略)
                 ・
                 ・
blast_path /home/imai/bin/ <-- /home/username/lcl/bin/ に変更
sprai_path /home/imai/tmp/bin/ <-- /home/username/lcl/bin/ に変更
--------------------------------------------------------------

#アセンブルの実行
ezez_v7.pl ec.spec asm.spec > log 2>&1 &

#アセンブル後のコンティグのエラー補正
#blasrの最新版をインストールするために必要なライブラリをインストール
wget http://www.hdfgroup.org/ftp/HDF5/current/src/hdf5-1.8.11.tar.bz2
tar jvxf hdf5-1.8.11.tar.bz2
cd hdf5-1.8.11
./configure --enable-cxx --prefix=/home/username/tool
make
make check
make install
cd ..

#pbalign.pyを動かすためにblasrを最新版に更新
git clone https://github.com/PacificBiosciences/blasr.git
cd blasr
export HDF5INCLUDEDIR=/home/username/tool/include
export HDF5LIBDIR=/home/username/tool/lib
make
#とやるだけだと上手くいかないので、
#http://www.vcru.wisc.edu/simonlab/bioinformatics/programs/install/blasr.htm
#を参考に、Makefile中のコンパイルオプションに-ldを追加(10箇所程度)、さらにいくつかのヘッダファイルの先頭に#include <unistd.h>を追加する。
#修正が大変なので、修正済みのファイルを ftp://ftp.cell-innovation.nig.ac.jp/software/blasr.tar.gz においてある。
#そこで、上に続いて、
wget ftp://ftp.cell-innovation.nig.ac.jp/software/blasr.tar.gz
tar zvxf blasr.tar.gz
cd blasr
make
make install
cd ../..

git clone https://github.com/PacificBiosciences/pbalign.git
cd pbalign
make
make install
cd ..

#コンティグのエラー補正を実行
#元のリードの場所のリストを.fofnファイルとして保存する
ls *.bas.h5 > all.fofn (RSII以降で.bax.h5 ファイルがある場合は、ls *.bax.h5 > all.fofn)
pbalign.py --nproc 8 --forQuiver all.fofn result_201?????_??????/CA/9-terminator/asm.scf.fasta all_against_celera.cmp.h5
quiver -j 12 all_against_celera.cmp.h5 -r result_201?????_??????/CA/9-terminator/asm.scf.fasta -o consensus.fa -o consensus.fq -o variants.gff

#これでconsensus.faという最終ファイルが作成される。



Last edited by admin , based on work by kyoshita .
Page last modified on 月曜日 17 of February, 2014 14:49:35 JST.