NGS(次世代シーケンス)における分子バーコード(UMI)の利用

近年NGS(次世代シーケンス)では分子バーコード(Unique Molecular Identifier、UMI)と呼ばれる技術が広まっています。NGSではPCRやシーケンスのエラーが発生するため、特に低頻度の変異を検出する場合に限界があったのですが、分子バーコードの技術を使用することで感度と精度を上げることが可能です。本記事では低頻度変異への有用性をメインに記載しますが、分子バーコードはRNA-Seq等の定量的解析や、シングルセル解析の利用にも役立ちます。

なお分子バーコードとindex配列は、異なる目的に使用されます。各サンプルの指標に利用されるindex配列が、バーコード配列と呼ばれることがあること、分子バーコードもindex配列もライブラリーのアダプターに使用されること、またUnique Dual Index(UDI)と名称が似ていることから混同されることがあります。

分子バーコードは、各サンプルの指標となる配列ではなく、各サンプル中の分子を識別する配列として利用されます。アダプター配列中にランダム塩基N(A、T、G、C)を〜10塩基程度として使用されることが多いです。

ここからは分子バーコードが、実際どのように有用なのか記載します。

まずNGSではPCRやシーケンスのエラーが発生しますが、同じ箇所のDNA配列を何度も読んでいるため、エラーにより異なる配列結果が出ても比較して除外することが可能です。

ただし近年ではNGSの臨床利用が期待されており、Liquid Biopsy*への利用など、非常に割合の少ない変異を、正確に解析可能な技術と品質が求められています。変異に対するカバレッジを増やせば検出精度を上げることは可能ですが、臨床現場では~数%の変異を正確に検出する技術が求められており、NGSのエラー頻度では限界があると考えられます。

血液や体液中に存在する、体の各組織から遊離したDNA(cfDNA: cell-free DNA)を診断する技術です。腫瘍から遊離したDNAも含まれるため、組織を摘出する必要がなく、身体への負荷が非常に少なく診断ができ、今後の発展が期待されています。ただ遊離したDNAの多くは健常な組織由来のDNAであるため、サンプル中の数%の腫瘍由来のDNAから、更に数%の変異を正確に同定しなければなりません。

NGSではカバレッジを増やしても正確な検出が可能なのは、~数%までの割合の変異と言われていますが、分子バーコードを使用すると、より割合の低い変異を正確に解析できるようになります。下記の図のように分子バーコードを使用した場合、各サンプルDNA断片に個別の配列が付加されるため、PCR後に分子バーコード配列を指標に同じサンプルDNA断片由来の配列を比較できるようになります。配列を比較することで、PCRエラーの配列を判別し、より精度の高い結果を取得することが可能となります。

下記論文の結果では、<1%頻度の変異の結果を、分子バーコードを使用した場合と使用しない場合で比較しています。特にPPV**の結果において、分子バーコードを使用した場合(Consensus: 黄緑色)では92.2%の値となっていますが、使用しない場合(No UMI: 青色)は28.2%と低い値となってしまっています。

シーケンス結果で変異と判定した中で、本当に変異の配列であった割合です。つまり下記の結果で分子バーコードを使用しない場合は、多くのエラー結果を変異として判定してしまっています。

エラーが気になるならPCRを行わなければ良いと思うかもしれませんが、その考えは実際正しいです。NGS実験では可能な限りPCR cycleを減らし、PCRエラーやバイアスを減らすことが望まれます。ただ実際は分子バーコードを必要とする体細胞変異などの解析ほど、十分な量や品質のサンプルを準備することが難しく、PCRが必要となるケースが多いです。逆に言えば、サンプル量の確保が難しい場合でも、分子バーコードを用いることでより良いデータを取得できるになります。

ここまでの説明だと分子バーコードはNGS実験に非常に有用に感じますが、いくつか注意点があります。

一つ目は解析の手間が増え、煩雑になる点です。上記図のように分子バーコード配列同士の結果を比較するなど、解析工程は増え、またNGS解析に関する深い理解が必要となります。

二つ目は分子バーコード配列の結果も取得する必要がある点です。サンプルDNA配列に加えて読む配列が増え、シーケンスコストが高くなります。

三つ目は上記の点とも関係するのですが、分子バーコードにあわせた実験計画が必要になる点です。通常NGS実験では重複するPCR由来の配列はPCR duplicateとして除外されるのですが、分子バーコードを使用する場合はPCR duplicateが故意に発生するようにしないと、使用する意味がなくなってしまいます。一般的には特定のターゲットの対して高いカバレッジが必要になり、シーケンスコストも高くなります。

ただシーケンスコストは年々下がっている状況ですし、解析方法も広まっているため、上級者向けと考えられている分子バーコードの技術も、多くの製品に使用されるなど一般化してきているようです。