FASTQ format이란?
Biological sequence 정보와 이와 관련된 Quality scores가 함께 저장되어 있는 Text-based format이다.
Sequence 정보는 'ACGT'로 표현되어 있으며, Quality socres는 ASCII 코드로 표현되어 있다. 

그림1. 실제 FASTQ format 모양

FASTQ의 구성 

@SEQ_ID
Sequences
+
Quality scores 

 

@HWI-ST479_0111:1:1101:1427:1952#0/1

NCCCCTTGATTAATTTTCTCACTGCAGAGAAAACAAGAATTAAAGAAAAGCTTCAGGTGATACCGTTTTT

+HWI-ST479_0111:1:1101:1427:1952#0/1

BIIIGSWXTWcccaccc\YYc_\_XQUUVR[[RSVYSU_ccccccYSRORZVYYXUUUVWXZZPZYYYYY_c[_ZP[  



SEQ_ID의 정보
HWI-ST479_0111the unique instrument name
1flowcell lane
1101tile number within the flowcell lane
1427'x'-coordinate of the cluster within the tile
1952'y'-coordinate of the cluster within the tile
#0index number for a multiplexed sample (0 for no indexing)
/1the member of a pair, /1 or /2 (paired-end or mate-pair reads only)


Quality Scores
Quality Score란 하나의 Sequence Position에서 base call 에러 확률에 대해 계산한 값을 말한다.
(p: probability of color call error)

 Q_\text{sanger} = -10 \, \log_{10} p

Quality Score의 값은 기기마다 다르다. 

 
 Quality Score 값이 높을수록(ASCII Code 값이 높을 수록) error rate가 낮다.

+ Recent posts