Platform for Drug Discovery


Sprai


第三回現場の会「de novoの達人」企画


    まずは、ツールのインストールなど、環境を整えることからはじめる。
    マシンスペックとしては、今回はCPU: Xenon 8コア、メモリー: 70GBで行っている。
    必要となるマシンスペックについては、対象とする生物のゲノムサイズと、シーケンスの量に依存する。
    今回は約5 Mbaseのゲノムである原核生物を対象としてx200のデータを用い、アセンブルを行った。
    DDBJのスパコン上でも動作することを確認している。(ただし、ジョブを実行させる際には、qsubでジョブを投げるようにする必要がある)

    対象とするOSはCentOS、もしくはRed Hat Enterprise Linuxである。

    基本的には、PacBio社からSMRT-Analysis(external link)と、SpraiのHPからSprai(external link)をダウンロードし、インストールすればよい・・・のだが、躓くステップが多いので、少しでもインストールを簡便にするため、笠原先生が作成されているLPM(external link)を用いる。

    試しに使える入力ファイルは、ここ(external link)のページにある、E. coliのデータ(external link)などがあります。(thanks to 大崎様)
    このデータを用いた場合、下記の手順を行うと全部で25本のコンティグができ、その中で10kbp以上のBigContigsと分類されたコンティグはたったの1本となった。

#まずは、LPMのインストール。

wget http://www.kasahara.ws/lpm/lpm

chmod +x ./lpm

./lpm initlocaldir

rm lpm #いらなくなった最初のファイルを削除

exec $SHELL -l

#SMRT-Analysisおよび、Sprai (Spraiに必要なBlast+なども含む)のインストール。

lpm install compiler-envs

lpm install zlib

lpm install blast+

lpm install sprai

lpm install smrtanalysis-centos   #ダウンロードにかなり時間がかかるので辛抱強くまつ

$SHELL #再度ログインしなおすか、シェルを立ち上げなおす

#SMRT-Analysisに内蔵されている各種ツールを最新版にアップデートする。

#pbcoreは、pbh5toolsをインストールするのに必要。

git clone https://github.com/PacificBiosciences/pbcore

cd pbcore

python setup.py install

cd ..

#bas.h5 -> fastqへとsubreadを抽出するプログラムをインストール。

#pbh5toolsはなぜか古いバージョンを上書きしてくれないらしいので、古いバージョンを退避。

mv ~/lcl/opt/smrtanalysis/current/analysis/lib/python2.7/pbtools.pbh5tools-0.75.0-py2.7-linux-x86_64.egg ~/lcl/opt/smrtanalysis/current/analysis/lib/python2.7/obsolete.pbtools.pbh5tools-0.75.0-py2.7-linux-x86_64.egg

git clone https://github.com/PacificBiosciences/pbh5tools.git

cd pbh5tools

make install

cd ..

#インストールの確認

bash5tools.py --version

#bash5tools.py 0.75.0 のように表示されればOK

#bas.h5 -> fastqへの変換

i=ecoliK12/Analysis_Results/m130404_014004_sidney_c100506902550000001823076808221337_s1_p0.bas.h5

bash5tools.py --outFilePrefix ${i%%.*} --readType subreads --outType fastq --minReadScore 0.75 --minLength 500 $i

#もしもbas.h5が複数ある場合には、上のコマンドのi= ... の箇所を、bas.h5の数だけ変更し実行する。

#fastqを一つにまとめる。

cat *.fastq > all.fq

#Spraiによるアセンブル

#設定ファイルを2つコピーし、必要に応じて編集する。

wget https://raw.github.com/PacificBiosciences/HBAR-DTK/master/etc/asm.spec

cp ~/lcl/build/sprai-0.9.5/ec.spec .

#asm.specは特に編集する必要はないが、ec.specは数箇所変更する必要あり。

#下記の例は、ユーザ名:username の場合。

--------------------------------------------------------------

#### common ####

input_fastq all.fq

estimated_genome_size 2e+7 <-- 想定ゲノムサイズより大きい値に変更

ca_path /home/imai/wgs/Linux-amd64/bin/ <-- /home/username/lcl/opt/smrtanalysis/current/analysis/bin/ に変更

                 ・

                 ・

               (中略)

                 ・

                 ・

blast_path /home/imai/bin/ <-- /home/username/lcl/bin/ に変更

sprai_path /home/imai/tmp/bin/ <-- /home/username/lcl/bin/ に変更

--------------------------------------------------------------

#アセンブルの実行

ezez_v7.pl ec.spec asm.spec > log 2>&1 &

#アセンブル後のコンティグのエラー補正

#blasrの最新版をインストールするために必要なライブラリをインストール

wget http://www.hdfgroup.org/ftp/HDF5/current/src/hdf5-1.8.11.tar.bz2

tar jvxf hdf5-1.8.11.tar.bz2

cd hdf5-1.8.11

./configure --enable-cxx --prefix=/home/username/tool

make

make check

make install

cd ..

#pbalign.pyを動かすためにblasrを最新版に更新

git clone https://github.com/PacificBiosciences/blasr.git

cd blasr

export HDF5INCLUDEDIR=/home/username/tool/include

export HDF5LIBDIR=/home/username/tool/lib

make

#とやるだけだと上手くいかないので、

#http://www.vcru.wisc.edu/simonlab/bioinformatics/programs/install/blasr.htm

#を参考に、Makefile中のコンパイルオプションに-ldを追加(10箇所程度)、さらにいくつかのヘッダファイルの先頭に#include <unistd.h>を追加する。

#修正が大変なので、修正済みのファイルを ftp://ftp.cell-innovation.nig.ac.jp/software/blasr.tar.gz においてある。

#そこで、上に続いて、

wget ftp://ftp.cell-innovation.nig.ac.jp/software/blasr.tar.gz

tar zvxf blasr.tar.gz

cd blasr

make

make install

cd ../..

git clone https://github.com/PacificBiosciences/pbalign.git

cd pbalign

make

make install

cd ..

#コンティグのエラー補正を実行

#元のリードの場所のリストを.fofnファイルとして保存する

ls *.bas.h5 > all.fofn (RSII以降で.bax.h5 ファイルがある場合は、ls *.bax.h5 > all.fofn)

pbalign.py --nproc 8 --forQuiver all.fofn result_201?????_??????/CA/9-terminator/asm.scf.fasta all_against_celera.cmp.h5

quiver -j 12 all_against_celera.cmp.h5 -r result_201?????_??????/CA/9-terminator/asm.scf.fasta -o consensus.fa -o consensus.fq -o variants.gff

#これでconsensus.faという最終ファイルが作成される。


Contact us
Copyright © 2009-2017 National Institute of Genetics  [Site Policy] [Privacy Policy]