NGS(次世代シーケンス)実験では、結果を取得するまで、サンプルの抽出からライブラリー調製、NGSによるランとその解析など、多くの工程が存在します。
本記事ではNGS実験の工程や結果に問題がないか、その評価と判断を行うポイントに関して、解析結果から分かることを紹介します。
リード長の分布
シーケンスの各リードの長さの分布を調べ、データの均一性を評価します。
アダプターのコンタミ評価
リード中にアダプター配列がどれだけ含まれているかを確認し、アダプター除去の効果を評価します。
アダプターのクロスコンタミ評価
各サンプルに割り当てたインデックスが正しいか評価します。ラン中のクロスコンタミも報告されていますが、過度のクロスコンタミは手技に問題がある可能性があります。
重複リードの評価
同じDNA断片から生成された重複リード(同じ配列を持つリード)の割合を評価し、バイアスやPCR増幅の影響を評価します。
アラインメントによる評価
シーケンスデータをリファレンスゲノムにアラインメントする際のマッピング率やクオリティーを評価し、正確性を検証します。
アセンブリ評価
コンティグN50(Contig N50:アセンブリされたコンティグのサイズ分布を示す指標。長い配列が多いとN50は大きくなり、一般的に良いアセンブリとされる)などにより、アセンブリを評価します。