Informatics/Genome Informatics
FASTQ Format
Yonglae Cho
2011. 5. 30. 16:28
FASTQ format이란?
Biological sequence 정보와 이와 관련된 Quality scores가 함께 저장되어 있는 Text-based format이다.
Sequence 정보는 'ACGT'로 표현되어 있으며, Quality socres는 ASCII 코드로 표현되어 있다.
FASTQ의 구성
@SEQ_ID
Sequences
+
Quality scores
@HWI-ST479_0111:1:1101:1427:1952#0/1
NCCCCTTGATTAATTTTCTCACTGCAGAGAAAACAAGAATTAAAGAAAAGCTTCAGGTGATACCGTTTTT
+HWI-ST479_0111:1:1101:1427:1952#0/1
BIIIGSWXTWcccaccc\YYc_\_XQUUVR[[RSVYSU_ccccccYSRORZVYYXUUUVWXZZPZYYYYY_c[_ZP[SEQ_ID의 정보
HWI-ST479_0111 | the unique instrument name |
---|---|
1 | flowcell lane |
1101 | tile number within the flowcell lane |
1427 | 'x'-coordinate of the cluster within the tile |
1952 | 'y'-coordinate of the cluster within the tile |
#0 | index number for a multiplexed sample (0 for no indexing) |
/1 | the member of a pair, /1 or /2 (paired-end or mate-pair reads only) |
Quality Scores
Quality Score란 하나의 Sequence Position에서 base call 에러 확률에 대해 계산한 값을 말한다.
(p: probability of color call error)

Quality Score의 값은 기기마다 다르다.
Quality Score 값이 높을수록(ASCII Code 값이 높을 수록) error rate가 낮다.