dbSNP에서 관리하는 reference ID(rsID)는 build version이 바뀌면서 통합되는 rsID들도 존재한다.
한 예로 dbsnp에서 rs4344934를 검색하면 다음과 같이 rs1107123으로 통합되었다는 얘기가 나온다.
"rs4344934 has been merged to rs1107123"
이렇게 rsID가 변경된 것을 홈페이지에서만이 아니라 서버 혹은 로컬컴퓨터에서 어떻게 확인할 수 있을까?
한 예로 dbsnp에서 rs4344934를 검색하면 다음과 같이 rs1107123으로 통합되었다는 얘기가 나온다.
"rs4344934 has been merged to rs1107123"
이렇게 rsID가 변경된 것을 홈페이지에서만이 아니라 서버 혹은 로컬컴퓨터에서 어떻게 확인할 수 있을까?
통합된 rsID를 추적해주지 않으면 최신 dbsnp build version을 사용한 vcf 파일안의 rsID와 문헌에서 조사한 rsID들과 매핑할 때, 문제가 발생될 수 있다. 이러한 문제를 해결하기 위해 dbSNP에서 RsMergeArch.bcp.gz이라는 파일을 제공한다.
[다운로드]
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/database/organism_data/RsMergeArch.bcp.gz
rs4344934로 검색을 하면 1107123으로 변경되었다는 것을 알 수 있다.
[다운로드]
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/database/organism_data/RsMergeArch.bcp.gz
gzcat RsMergeArch.bcp.gz | grep 4344934
4344934 1107123 123 2004-09-24 18:49:00 2004-10-10 11:55:00 1107123 1
rs4344934로 검색을 하면 1107123으로 변경되었다는 것을 알 수 있다.
build 또한 나와있어서 build별 추적이 가능하다.
위의 결과 순서별로
rsHigh, rsLow, build version, orien, create_time, last_updated_time, rsCurrent, orien2current
결과에 대한 Description은 http://www.ncbi.nlm.nih.gov/SNP/snp_db_table_description.cgi?t=RsMergeArch
rsID가 통합될 때는 몇가지 규칙이 있는데
1. 높은 rsID가 낮은 rsID 번호로 통합된다.
2. 한 번 사용된 rsID는 다시 사용되지 않는다. 'Informatics > Genome Informatics' 카테고리의 다른 글
FASTQ SAMPLE (0) | 2014.06.19 |
---|---|
Genome / 유전적 복합성(Genetic Heterogeneity) (0) | 2011.12.16 |
Genome / Genetic Risk (0) | 2011.08.30 |
GEO / GPLRaw Data에서 GSM정보 추출하기 (0) | 2011.08.12 |
Genome / 뉴클레오티드, 뉴클레오티드키나아제 (0) | 2011.06.22 |