ロングリードvsショートリード

NGS(次世代シーケンス)では、解析したい配列に対して何度も配列断片を取得していきます。その配列を読む長さをリードと呼び、現在NGSで最も主要なIllumina社機器のシーケンサーでは、リードの長さ(リード長)が数百塩基となっています。

しかしながら現在はPacBio社やNanopore社からもシーケンス機器が販売されており、それら機器では数千塩基以上のリードが取得できるようになっています。そのためPacBio社やNanopore社の機器はロングリードシーケンサー、Illumina社などの数百塩基のリードが取得できる機器はショートリードシーケンサーと呼ばれています。

本記事ではショートリードとロングリード、それぞれのメリットとデメリットを解説します。

読み取りの精度:Illuminaショートリードがベスト

NGSで現状100.0%の精度で配列の読み取りが出来ず、わずかに読み取りエラーが発生します。エラーの割合は0.1%以下ですが、データ量の多いNGS実験では0.1%以下のエラーでもトータルでは非常に多くなります。またliquid biopsyへの利用など希少変異の正確な解析が求められることが増えている現状では、可能な限りエラー率の低い実験がもとめられます。

現在のところエラー率に関してはショートリードが優れているため、特にクリニカルシーケンスの用途ではショートリードが使用されるケースが多いようです。

ただしロングリードシーケンサーも年々精度が向上しており、数年後には違う結果となっているかもしれません。

リピート領域・GCリッチな領域・リード超を超える変異の読み取り:ロングリードの優位点

上記1で読み取りの精度はショートリードに軍配が上がると記載しましたが、リピート領域やGCリッチな領域では、ロングリードに軍配が上がります。例えばリピート領域が数百~数千続くような配列をシーケンスする場合、ショートリードではどの部分の配列か分からず、リピートが何塩基続くのか解析できないことがあります。その点ロングリードではリピート領域を跨いでシーケンス出来るため、より正確なシーケンスが可能となります。またこの利点は、その他リード長を超える変異の解析時にもあてはまります。

一度のシーケンスで取得可能なデータ量:Illuminaシーケンサーがデータ量最大

現在Illuminaで最も出力が高い機種(NovaSeq X)では16TBのデータ量が取得可能ですが、ロングリードでは数百GBとなっています。多サンプル解析や数千以上のカバレッジが必要な実験では、コストや手間を考えるとIlluminaのショートリードに軍配が上がります。

実績、対応可能な実験、取り扱い製品数:Illuminaシーケンサーが豊富

IlluminaのショートリードシーケンサーはNGSの発展に大きく寄与した機器であり、世界中で広く利用されており、対応可能な実験や実績が多く、またIllumina社以外の多くの企業からライブラリー調製キット等が販売されております。

まとめ

現在のところ、読み取り精度が高く比較的コストの高いショートリードが第一選択で、データの足りない部分をロングリードで補っているケースが多い状況かと思います。またショートリードのみの結果では論文の査読でコメントされることもあるようです。ただ今後読み取り精度が上がり、解析の手間やコスト等を考えなければ、ロングリードのデメリットがなくなり、ショートリードが不要となる状況になることもあるかもしれません。

またNanoporeはシーケンサーも小型で実験室以外でもシーケンスな可能なメリット等もあり、ロングリードの発展はNGS実験全体の発展に繋がることが期待されます。