分子バーコードとDuplex Sequencing

以前に下記の記事で分子バーコード(UMI: Unique Molecular Identifier)に関してご紹介しました。

実はUMIは2本鎖形式にすることで、より低頻度の変異を正確に解析できるようになります。

本記事では2本鎖UMIの手法(Duplex Sequencing)と、その解析手順の流れをご説明します。実際の解析コマンド例等の詳細に関しては、今回省力しますので、ご了承下さい。

Duplex Sequencing

UMIは各アダプターの片鎖や一本鎖に付加することが一般的ですが、下記図のように2本鎖のUMIを付加する、Duplex Sequencingと呼ばれる手法があります。

↓一般的なUMIアダプター例

↓Duplex Sequencingアダプター例

このDuplex Sequencingの手法ですと、各UMIが相補配列となっているため、各鎖を比較し、より正確な解析が可能になります。

比較しやすいように、各エラー判別の手法を下記にまとめました。

Start-Stop positionによる重複リードの除去(deduplication)

UMIを使用しない場合の解析手法です。raw readからstartとstopの位置が同じリードを、PCR等による重複リードとし、重複した分を除外します。重複除去(deduplicate)したリードは、その他の近接するリード中の配列と比較し、変異があるか等の解析を行います。そのため生殖細胞変異(germline mutation)や、頻度が高い変異(数%以上)でもリードを増やすことで、解析を行うことが可能です。ただしこの解析手法ですと、配列中の存在比が低く検出された塩基はエラーと認識され除去されてしまうため、頻度が低い変異(数%以下)を正確に検出することは出来ません。

なお上記図のraw readでは、これから紹介するUMIと比較しやすいように重複リードが多くなっておりますが、実際にUMIを使用しない実験の場合は、重複が少ない方がより良いデータとなります。そのためUMIを使用しない実験では、下記図のように重複除去されるリードは少なく、ほぼraw readのままのリードで、エラーを検出する場合が多いです。

UMIによる解析手法(Duplex Sequencingではなく)

UMIを用いた実験では、同じUMI配列をもつリード同士を比較し、一つのリードを作成していきます。その際に存在比の低い配列はエラーとして除外されるため、最終的に解析結果として使用されるリード配列は、非常に精度の高い配列となります。

ただ上記の図を見ると、上から4番目のリード(UMIがTAC-GTC)にエラーが残ってしまっています。これは同じ位置に同じ塩基のエラーが入ってしまった場合や、PCR初期に入ったエラーが増幅し、UMI同士を比較した際に存在比が高くエラーとして除外されなかったケースです。確率としては低いため、更に他の(UMIによりエラー除去済みの)リードと比較することでエラーとして認識出来るかもしれませんが、実際は非常に低い頻度の変異かもしれません。また臨床用途では、エラーのまま残した塩基が大きな意味を持ち、その後の治療選択を間違う可能性もあります。NGSの臨床利用ではこのような非常に確率の低い間違いも許されないため、Duplex Sequencingのような手法が開発されたり、その他の精度管理の手法が研究、開発、検討され続けています。

Duplex Sequencing を用いたUMIによる解析手法

下記にDuplex Sequencingを用いた流れを図示します。Duplex Sequencingですと、上記のUMI解析に加えて、top strandとbottom strandを比較したエラー除去が行われます。そのため最終的に解析結果として使用されるリード配列に、エラーが残る可能性は更に少なくなります。

ただしDuplex Sequencingを用いた手法ですと、通常のUMI解析よりも更に重複したraw readが必要となるため、シーケンスコストが高価になります。通常のUMI解析でも数千以上のカバレッジが検討されますが、Duplex Sequencingでは一万以上のカバレッジが検討され、大きいパネルを用いたシーケンスが困難になる場合があります。

なおDuplex Sequencingが最初に報告された論文は下記のようですが、現在はTwinStrand Biosciences社がDuplex Sequencingの名称で、製品を取り扱っています。今回は分かりやすいようにDuplex Sequencingの名称で解析手法を紹介しましたが、同じ機序の手法を取り扱う際は、表記方法等に注意が必要かもしれません。(ちなみに私はTwinStrand Biosciences社の社員等ではありません。)

Detection of ultra-rare mutations by next-generation sequencing

TwinStrand Duplex Sequencing™ Technology