Platform for Drug Discovery


SAM


リンク


概要


  • 主にマッピングの結果情報を格納する形式です。設計方式として拡張性を考慮している分、SAM形式の出力結果には、ツールごとの拡張書式部分での方言が存在します。SAMtoolsなどにより、バイナリでの保存と、それに対するindex付加により、システムから直接参照することも可能です。

書式


ヘッダ


  • "@"で始まります。
  • 以下のような情報が格納されます。
    • マッピング対象のリファレンス(染色体等)のシンボルや長さ
    • マッピング条件
  • コメント:ヘッダ部分は機械処理上、若干邪魔になりますが、BAMへの変換には、染色体長が必須ですので、除去したりしないようにして下さい。

標準フィールド


  • #略号意味
    1QNAMEリード名SRR015293.3
    2FLAGフラグ16
    3RNAMEリファレンス名chr3
    4POSスタート位置186338939
    5MAPQマッピングクオリティ25
    6CIGARCIGAR32M
    7RNEXTペアリファレンス名*
    8PNEXTペアリードのスタート位置0
    9TLEN総断片長
    (インサートサイズ+両リード長)
    0
    10SEQリード配列TTGTGATGATTTCGACGGTAAGCCACCATGAT
    11QUALクオリティKVNKHYYQYYJSCHQYYYYYYTYYYYYYYYYY
    12-オプショナルフィールド(タグ)XT:A:U NM:i:2 X0:i:1 X1:i:0 XM:i:2 XO:i:0 XG:i:0 MD:Z:4C7T19

オプショナルフィールド(タグ)


  • 良く使用されるオプショナルフィールド
    #タグ名書式(正規表現)説明
    1MDMD:Z:[0-9]+(([ACGTN]|\^[ACGTN]+)[0-9]+)*MD:Z:4C7T19ミスマッチ位置を示す文字列。
    2NMNM:i:[-+]?[0-9]+NM:i:2編集距離(ミスマッチ,InDel等の合計値?)。あいまいな塩基を含み、クリッピングされた領域を除く。
    • その他の情報の有無はレコードに依存します。
    • X*:.:*のフィールドはマッピングプログラムに依存します。この例はBWA。
    • 詳細な定義はこちら(external link)で確認して下さい。

フラグの意味と変換


  • SAM/BAMの2列目の数値は以下のような情報フラグを足し合わせた数値が入ります。
  • #10進数16進数項目名説明
    110x1read pairedペアか否か
    220x2read mapped in proper pair適切なペアとしてマップされたか否かのフラグ。Insert長が想定外だったり、マッピングの方向や位置関係が想定範囲外の場合はこのフラグが付かない。
    340x4read unmappedこの行で表現するリードがマップされなかったか否か。
    480x8mate unmappedこの行の対となるリードがマップされなかったか否か。
    5160x10read reverse strandこの行で表現するリードが逆方向にマップされたか否か。
    6320x20mate reverse strandこの行の対となるリードが逆方向にマップされたか否か。
    7640x40first in pairペアの1番目か否か。
    81280x80second in pairペアの2番目か否か。
    92560x100not primary alignment1リードあたり複数のアライメントが得られる場合、代表とする1つ以外はこのフラグがつく(場合が多)。
    105120x200read fails platform/vendor quality checks-
    1110240x400read is PCR or optical duplicate-
    1220480x800supplementary alignment-

シングルエンドの例


  • シングルエンドのリードのマッピング結果でよく見られるフラグとその意味です。
  • ペアかマップ無逆鎖にマップ=フラグ説明
    000=0順方向にマップされたシングルエンドのリード
    040=4マップされなかったシングルエンドのリード
    0016=16逆方向にマップされたシングルエンドのリード

ペアエンドの例


  • ペアエンドのRNA-seqのリードをTopHatでマップした場合に件数の多いもののみリストして、ステータスを列挙しています。
  • ##############################################################################################################
    ペアかproper
    pair
    リード
    未マップ
    ペア
    未マップ
    リード
    逆鎖
    ペア
    逆鎖
    リード1かリード2かnot primary
    alignment
    =フラグこの行は
    リード1/2
    リード
    の状況
    ペア
    の状況
    簡易図示件数
    1008006400=73リード1順鎖にマップ未マップ1:=>-
    10001606400=81リード1逆鎖にマップ順鎖にマップ1:<=,2:=>
    10081606400=89リード1逆鎖にマップ未マップ1:<=-
    10000326400=97リード1順鎖にマップ逆鎖にマップ1:=>,2:<=
    10080001280=137リード2順鎖にマップ未マップ2:=>-
    100016001280=145リード2逆鎖にマップ順鎖にマップ1:=>,2:<=
    100816001280=153リード2逆鎖にマップ未マップ2:<=-
    100003201280=161リード2順鎖にマップ逆鎖にマップ1:<=,2:=>
    100000640256=321リード1順鎖にマップ順鎖にマップ1:=>,2:=>-
    1000160640256=337リード1逆鎖にマップ順鎖にマップ1:<=,2:=>-
    1000032640256=353リード1順鎖にマップ逆鎖にマップ1:=>,2:<=-
    10001632640256=369リード1逆鎖にマップ逆鎖にマップ1:<=,2:<=-
    1000000128256=385リード2順鎖にマップ順鎖にマップ1:=>,2:=>-
    10001600128256=401リード2逆鎖にマップ順鎖にマップ1:=>,2:<=-
    10000320128256=417リード2順鎖にマップ逆鎖にマップ1:<=,2:=>-
    100016320128256=433リード2逆鎖にマップ逆鎖にマップ1:<=,2:<=-
    • 太字の"フラグ"列より左にある数値の和がフラグになります。
    • シングルエンドに比べ格段に複雑化・多様化し情報量が増えているため、目で処理するのは現実的ではなくなります。
    • TopHatの結果は基本リード未マップの行は出力されないので、read unmappedのフラグはすべて0になっています。
    • このデータでは、大多数の結果でproper pairのフラグが立っていませんが、ツールやオプションによってはproper pairが100%などもあるため、注意が必要です。

参考情報


  • 相互変換Webツール。
  • SAMのフラグ関連の小ネタがまとめられています。マルチリードの件は知らなかったです...。参考になります。
    • micro*macro(SAMフォーマットの注意点)(external link)
    • multiread(複数の箇所にマップされたリード)を除きたい場合
    • unmapped reads を除きたい場合
    • マップされたのがどちら側の鎖か(forward か reverse か)を知りたい場合
    • レファレンスとの編集距離(edit distance)を知りたい場合
    • SEQがreverse complimentとは
  • "read mapped in proper pair"について調査結果を報告されています。
    • heard'emsay(2012-04-14 )(external link)
    • 要約するとproper pairじゃないものは
      • ペアがそれぞれ異なる染色体上にマップされるもの。
      • ペアの向きが間違っていること。(例えばforward-reverseのサンプルで、forward-forward,reverse-reverseはinproper)
      • ペア間の距離が想定範囲外であること。
      • その他調査では分からなかった理由でinproperになる場合がある。
  • SAM FLAGの12番目

SAMパーサや、SAMへのコンバータを作成する際に使用する情報


関連情報


Contact us
Copyright © 2009-2017 National Institute of Genetics  [Site Policy] [Privacy Policy]