FASTQ format이란?
Biological sequence 정보와 이와 관련된 Quality scores가 함께 저장되어 있는 Text-based format이다.
Sequence 정보는 'ACGT'로 표현되어 있으며, Quality socres는 ASCII 코드로 표현되어 있다.
FASTQ의 구성
@SEQ_ID
Sequences
+
Quality scores
@HWI-ST479_0111:1:1101:1427:1952#0/1
NCCCCTTGATTAATTTTCTCACTGCAGAGAAAACAAGAATTAAAGAAAAGCTTCAGGTGATACCGTTTTT
+HWI-ST479_0111:1:1101:1427:1952#0/1
BIIIGSWXTWcccaccc\YYc_\_XQUUVR[[RSVYSU_ccccccYSRORZVYYXUUUVWXZZPZYYYYY_c[_ZP[SEQ_ID의 정보
HWI-ST479_0111 | the unique instrument name |
---|---|
1 | flowcell lane |
1101 | tile number within the flowcell lane |
1427 | 'x'-coordinate of the cluster within the tile |
1952 | 'y'-coordinate of the cluster within the tile |
#0 | index number for a multiplexed sample (0 for no indexing) |
/1 | the member of a pair, /1 or /2 (paired-end or mate-pair reads only) |
Quality Scores
Quality Score란 하나의 Sequence Position에서 base call 에러 확률에 대해 계산한 값을 말한다.
(p: probability of color call error)
![Q_\text{sanger} = -10 \, \log_{10} p](http://upload.wikimedia.org/math/5/7/4/57446e5cfc3efb3788ec8fb7cc4f9f16.png)
Quality Score의 값은 기기마다 다르다.
Quality Score 값이 높을수록(ASCII Code 값이 높을 수록) error rate가 낮다.
'Informatics > Genome Informatics' 카테고리의 다른 글
Genome / 뉴클레오티드, 뉴클레오티드키나아제 (0) | 2011.06.22 |
---|---|
Genome / SNP Genotype 표 이해하기 (0) | 2011.06.16 |
NCBI / caGRID 설치 (0) | 2011.05.26 |
Biology / 유전자와 유전형 (0) | 2011.05.25 |
인간 염색체의 유전자 수와 DNA의 역사 (0) | 2011.05.19 |