Solexa シーケンスにおけるマイナーコールの統計モデル解析
池田 俊 (0951147)
次世代シーケンシング技術が急速に膨大なDNA配列データを生成することができる。最近では、多くの大規模な再配列プロジェクトは、新しい技術を用いて行われている。これらのプロジェクトでは、一塩基多型(SNP)の検出が重要な分析である。その解析において、シーケンスエラーを制御する必要がある。次世代シーケンサの一つであるイルミナ/ Solexaゲノムアナライザは大量の短い塩基配列(リード)を算出する。このリードの後部のベースコールクオリティがリードの前部より低くなる傾向が報告されている。しかし、リード間でアライメントの後のマイナーコールの傾向についてはほとんど報告されていない。本研究で、SNPs解析のためのマイナーコールの統計モデルを報告する。このマイナーコールのモデルは、偶然誤差、系統誤差、サンプル誤差を仮定した。この偶然誤差のモデルを決定するために、代表値を用いて外れ値を除去した。その抽出したマイナーコールの頻度分布に対し負の二項分布に近似することを示した。また、外れ値の除去法でアライメントしたリードと偶然誤差の関係を示した。しかし、アライメントしたリードが少ない場合、このモデルは適用できなかった。これについては系統誤差を考慮したパラメータを検討する必要がある。