リード数とカバレッジの違い

NGS実験を分かり難くしている原因の一つとして、専門用語が多い点があります。今回は実験計画をする上で重要な、「リード数」と「カバレッジ」の語句に関して解説します。

まず下記の図の結果を取得した場合、と「リード数」と「カバレッジ」は何になるでしょうか。

「リード数」はNGSで配列を読んだリードの数です。上記の図ですと、グレーのリードが5本あるので、「リード数」は5になります。

「カバレッジ」はあるポジションでリードを読まれた回数 = リードが重なる回数です。そのため「カバレッジ」は上記の図ですと、最も多いポジションで5になります。またリードが5本重なっていないポジションは、4, 3, 2, 1…と減ることになります。なお「カバレッジ」は「デプス」と呼ばれることもあり、乗算記号を用いて100xのように表記されることもあります。

「リード数」と「カバレッジ」の使い分けが発生するのは、実験内容によって必要な情報が違うからです。

RNA-Seqによる発現解析を行う場合は、一般的に特定の遺伝子や領域に対して、取得出来たリード数の結果が重要になります。そのため、「small RNAの発現解析には、最低100万リード必要」といった感じで用いられます。

対してSNP等の変異を解析する場合は、そのポジションに対して何回読まれたかの、カバレッジの結果が重要になります。そのため、「5%の体細胞変異を解析する場合は、500カバレッジが必要」のように用いられます。