한국생명공학연구원 김남신, 추인선 박사가 대한생화학분자생물학회 웹진(2009년 10월호)에 기고한「차세대시퀀싱(NGS) 기술의 활용」을 전재한 것으로 이해를 돕기 위해 사진을 첨부하였고, 일부 어려운 내용은 쉬운 문장으로 수정하였다. 차세대시퀀싱의 내용이 하루가 다르게 발전하고 있어 조만간 대폭 수정보완해야 할 것으로 판단된다.



차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술의 활용


다양한 생체 정보는 DNA 염기서열의 유전자로 표현되고, 개체의 완전한 DNA 염기서열 정보는 생명현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. 한편으로는 복잡한 생물학적 실험과정, 단순하지 않은 대용량의 바이오 데이터를 다루는 생물정보학(bioinformatics) 및 방대한 유전정보의 유전학적 활용방안 등의 문제가 산적해 있다.


DNA 염기서열 정보의 해독, 즉 게놈시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합질병의 유전자 결함을 찾기 위한 것이다. 또한 시퀀싱 데이터는 유전자 발현, 유전자 다양성 및 그 상호작용 등의 정보들을 분자진단과 치료영역에서 폭넓게 활용할 수 있어 매우 중요하다.

2007년 SolexaIllumina사에 합병되면서 차세대 염기서열분석(Next Generation Sequencing, NGS)이라는 용어가 사용되기 시작하였다. 현재는 2세대에 해당되며 NGS 기술의 발달에 힘입어 대용량 염기서열 정보가 전통적인 방법들에 비해 훨씬 쉽고 저비용으로 분석할 수 있게 되었지만, 여전히 100% 정확하게 전체 DNA 염기서열 정보를 파악할 수 없다는 한계성도 있다.

2004년 인간게놈프로젝트(Human Genome project, HGP)의 종결 선언 후, Sanger 방법을 사용하여 처음으로 시행한 개인의 게놈 정보는 2007년 크렉 벤터(Levy et al., 2007)의 염기서열 정보이다. 벤터의 DNA 시료는 HGP의 여러명 중에 하나로 비교적 짧은 시간에 저비용으로 가능하였다. 2008년 FLX 454를 이용한 제임스 왓슨(James Watson)의 DNA 염기서열 정보가 벤터의 경우와 비교하여 거의 1%의 비용으로 해독이 가능하였다(Wheeler DA et al., 2008).



최근 2년간 Illumina사의 Solexa를 이용한 흑인 및 아시아인을 포함한 다수의 시퀀싱 정보(Bentley DR et al. 2008, Wang, J et al. 2008, and Kim JI et al. 2009, Ahn SM et al. 2009)들이 보고 되었고, Biosciences 사의 Single Molecule Sequencer에 의한 한 유럽인의 시퀀싱 결과(Pushkarev D. et al., 2009)도 발표되었다. 또한 미국 MIT의 연구그룹을 중심으로 진행되고 있는 1000 Genome Project의 대용량 데이터들이 순차적으로 대량의 인간 게놈 데이터가 공개될 것이다. 이 외에도 비공개적으로 많은 수의 개인 시퀀싱 프로젝트들이 진행되고 있다.

앞으로 NGS 기술은 유전체와 후생유전체를 포함하여 많은 분야에서 이용될 것이지만 데이터의 복잡성으로 인해 소수의 생물정보학 분야의 전문가만이 다룰 수 있는 상황이다. R&D 및 바이오-의료 분야에서 NGS 기술을 제대로 활용할 수 있는 연구체계 구축이 중요한 시점이다.



1. 개인 유전체 분석 및 맞춤의료


다국적 연구자들이 진행하고 있는 1000 Genome Project는 인간의 유전적 다양성에 대한 보다 엄밀한 청사진을 그리는 것을 목표로 하는 계획으로 제2의 HGP라 할 수 있으며, 유사한 프로젝트들의 가시적인 결과들이 보고되는 단계에 접어들고 있다. 이러한 대형 프로젝트들의 결과로 방대한 데이터들을 활용할 수 있는 시대를 맞이하고 있지만, 현 시점에서 중요한 것은 DNA 염기서열 정보를 질병과 연관시켜 활용할 수 있는 체계적인 준비이다.

이를 위해서는 정상인을 대상으로 하는 DNA 염기서열분석이라 할지라도 병리학적으로 정의된 다양한 의료정보와 함께 의료행위 범주에서 개인의 유전체 정보를 사용하여야 하고, 이러한 유전체 정보들을 최대한 활용할 수 있기 위해서는 질병관련 유전자 및 단백질들의 기능들이 밝혀져야 한다.


특히 환자로부터 수집된 유전체 정보는 서로 다른 증상이나 질병의 진행과 연관된 유전적인 특징을 규명하는데 중요하고 궁극적으로 치료법과 새로운 약물 개발로 연계될 것이다. 이는 NGS 기술의 일반화와 함께 개인 유전체 정보를 알 수 있다면 맞춤의료에 한발 더 다가설 수 있는 것은 사실이지만, 어디까지 질병의 원인이나 발병 등의 메커니즘을 이해하는 것으로 제한되고 해결방법에 대한 기능적인 정보가 미흡한 상태이다.

즉 각 질병과 연관된 많은 부분의 유전적 기능을 알지 못하면 개인 유전체 정보를 알고 있어도 최상의 개인맞춤 의료가 불가능하다. 개인 맞춤의료 실현을 목표로 체계적인 개인 유전체(Personal Genome) 시대의 준비와 동시에 대용량 바이오 정보들을 총체적으로 다룰 수 있는 정보학 및 유전학적 연구환경 조성도 중요하다.



2. 다양한 응용기법

전통적인 Sanger 시퀀싱 방법은 실험과정에 소요되는 시간이나 비용 및 그 응용성을 고려하면 대부분의 분야에서 NGS 기술로 대체되고 Genome-wide SNP 칩의 활용도 매우 낮아 질 것으로 예상된다. NGS 기술 사용이 보다 일반화되면 Transcriptome(전사체) 분야를 포함하여 많은 부분 NGS 기술이 PCR이나 마이크로어레이 기술 등을 대체할 것이다(그림 1).

현재 시퀀싱 관련 대량의 정보들이 NCBI의 DB를 통하여 공개되고 있지만, 여러 가지 이유로 불완전한 부분이 많다 (Pushkarev D. et al.2009). 이는 개체의 조직형태에 따라 게놈의 다양한 변이가 존재하고, NGS 기술로는 Re-sequencing 개념으로 제한되는 불완전한 해독이며 반복서열의 문제점, Haplotype phasing이 어렵고 분석에 제한적이며, 또한 전체 구조적인 변이의 정의가 미흡하고 SNP를 결정할 때의 false-positive와 false-negative 비율 등 NGS 기술을 제대로 활용하기 위해 해결해야 할 문제들이 산적해 있다.

NGS 기술을 이용한 게놈 시퀀싱 정보들은 대부분 paired-end 방법을 채택하고 있으며 시퀀스 배수가 20~40X 정도이며 수천 개 이상의 구조적인 변이들을 포함하고 있을 것으로 예측하고 있다. DNA 염기서열 정보로부터 얻을 수 있는 가장 핵심적인 부분은 개인차를 가장 잘 설명하는 집단 안에서 변이(variation)이며 SNP (Single Nucleotide Polymorphism), MNP (Multi Nucleotide Polymorphism), InDel (Insertion and Deletion) 및 Structural Variation (Inversion, Translocation), CNV (Copy Number Variation) 등을 생각할 수 있다. 이러한 변이 정보들을 관련된 DB 등과 비교분석함으로써 다방면에서 잠재적으로 질병과 연관성이 높은 마커들을 발굴할 수 있고, 이는 질병의 예측과 진단에 활용할 수 있으며 암환자의 예후를 판단하거나 분자진단을 위한 핵심 바이오마커를 발굴할 수 있다.


하나의 염기가 다른 것으로 대체되는 돌연변이와는 달리 두 염기서열을 비교할 때 DNA 염기 서열의 InDel은 결손된 핵산(Nucleic Acid) 영역에서 발견되며 돌연변이의 원인이 되기도 한다. 한편으로 국제 HapMap 프로젝트 등이 진행되어 많은 정보가 공개되었지만 InDel 관련 정보는 충분하지 않으며, 수많은 개인 유전체를 분석한 데이터가 쌓여야 보다 정확한 InDel 관련 DB가 구축될 것이고, 질환 관련 유전자에 대한 보다 엄밀한 정의가 가능해 질 것이다.


2.2. 타겟 게놈 시퀀싱


아직까지 전체 게놈을 시퀀싱은 비용의 문제가 크게 작용하지만, 특히 특정 부분의 유전자 혹은 유전체 영역에 집중해서 시퀀싱하는 방법도 질병관련 분야에서 활용은 장점이 많다. 암과 관련 수천 개의 유전자 또는 Kinase 등 중요한 유전자를 중심으로 타겟 시퀀싱 프로젝트들이 진행되고 있다. 예를 들어, Harvard 의대의 Dr. Church는 최근 100,000명의 exome을 시퀀싱하는 Personal Genome Project를 진행 중이며, 일차적으로 10명 (PGP-10)에 대해서 Personal Health Record와 함께 웹에서 데이터를 공개하고 프로젝트를 계속 진행하고 있다.


대표적으로 타겟을 선택하기위해서 사용하는 방법은 Hybridization 기술이며 NimblegenAgilent Technologies사에서 전체 exome 용으로 사용자 디자인이 가능한 마이크로어레이 및 타겟을 선택하기 위한 장비를 시비스하고 있다. 또한 Agilent 사는 실험이 간단하고 특별한 장비가 필요없는 액상에서 타겟을 선택할 수 있는 kit을 서비스하기 시작하였다.

예를 들어, 워싱턴주립대학과 Agilent 사 연구팀은 공동으로 Agilent의 타겟 캡쳐 어레이, Illumina GA2 Platform을 이용하여 8명의 HapMap 정상인 검체와 4명의 멘델유전질환인 Freeman-Sheldon syndrome (FSS) 환자의 exome을 시퀀싱하여 protein coding variation을 찾는 연구(Ng SB, et al., 2009) 결과를 발표하였다. 여기서 FSS 원인유전자인 MYH3만이 정상인과 환자 사이에서 차이를 보인다는 사실을 알았다. 이러한 exome 시퀀싱은 많은 수의 검체를 대상으로 할 경우 더 복잡한 질병과 연관된 유전적 변이를 찾고, 진단 표지자를 발굴하는데 유용하게 사용될 수 있다.


NGS 기술의 발전으로 일주일 정도면 한 사람의 게놈 시퀀싱이 가능하게 되었지만, SNP나 CNV의 분석에 다양한 분야의 전문성을 확보한 그룹에서만 의미있는 결과를 도출할 수 있다. 또한 수천 명의 게놈 시퀀싱 데이터를 다루어야 하는 분야에서 매우 높은 수준의 생물정보학적 요구가 생기는 것은 당연하다. 점진적으로 표1과 같은 분석결과들이 쌓이면 구조적인 변이(CNV)에 대한 정보는 급속하게 증가할 것이며 이러한 분석이 가능해야만 난치병 해결에도 한 발더 다가설 수 있다.



2.3. Transcriptome, RNA-Seq 및 Methylation-Seq

환경적 요인에 의해 질병이 발생하는 경우도 있지만 대부분 DNA와 관련되어 세포 내부에서의 변화가 주원인이며, HGP완성 후 유전체 관련 기술의 발달에 힘입어 바이오마커 발굴과 함께 게놈 구조 차이를 규명할 수 있게 되어 질병과의 관련성도 분석할 수 있게 되었다.

유전자발현연구에 있어서 Hybridization에 바탕을 둔 마이크로어레이 기술은 많은 한계점이 있다. 알려진 유전자를 중심으로 probe를 디자인 해야 하는 점과, detector의 노이즈에 의해 발현이 낮거나 높은 경우에는 제대로 분석을 할 수 없는 단점이 있고, 실험간의 편차도 큰 편이었다. 또한 Exon 마이크로어레이는 유전자발현 마이크로어레이에 비해 상대적으로 단가가 높은 문제점과 데이터의 정규화를 포함한 통계적 방법들을 적절하게 적용해야 하는 등 많은 연구자들이 쉽게 다루기 힘들며, 보다 어려운 문제점은 시퀀싱 데이터를 다룰 때도 생기지만 유전자와 Exon의 발현 및 발현된 유전자의 각종 변이 등을 한꺼번에 연구할 수 있는 대체 기술이 RNA-Seq이다.

이는 유전자 발현 연구에 지금까지 해왔던 패턴에서 벗어나 새로운 시각 및 다양한 연구 방향을 제시할 것이다. 또한, 유전자가 알려지지 않은 종에 대해서도 적용할 수 있다는 강력한 이점이 있다. NGS 기술은 Tag을 이용한 유전자발현프로파일(Digital Gene Expression: DGE) 연구에 효과적이며 각 유전자의 발현 정도나 특이 유전자 발굴 등에 유용하며, 분석 대상의 시퀀스 정보가 없어도 유전자 발현 분석이 가능하다.


NGS 기술은 Whole Transcriptome 시퀀싱이 가능한 것은 물론 새로운 transcript, splice isoform, transcript 구조 및 질병과 관련된 coding SNP 연구를 포함하여 small RNA 연구분야까지 확대할 수 있다. 또한 100 bp이상의 read 시퀀싱이 가능하며, 5kb까지 insert 길이를 조절할 수 있어 De novo 시퀀싱에 적용할 수 있는 단계까지 도달하였지만 대부분 Re-sequencing이므로 분석할 때 false positive와 false negative 문제를 해결하는 것이 중요하다.


마이크로어레이 기술에 비해 시퀀싱에 바탕을 둔 방법들은 바로 cDNA의 시퀀싱을 결정할 수 있다는 장점이 있다. 즉, Tag-profiling으로 통하는 Serial Analysis of Gene Expression(SAGE), Cap Analysis of Gene Expression(CAGE), Massively Parallel Signature Sequencing (MPSS) 방법들은 DGE 개념의 유전자발현 연구가 가능하지만 Sanger 방법에 바탕을 둔 것이므로 고비용의 문제와 짧은 tag는 레퍼런스 시퀀스에 유일하게 맵핑되기 힘들다는 문제점 등으로 거의 활용되지 못하고 있는 실정이다. 이러한 문제점들을 극복하기 위해 고안된 RNA-Seq은 여러 가지 장점을 가지고 있다 (Wang Zet al., 2009). 또한 Sanger 방법에 비해 민감도와 비용면에서 효율적인 암유전자발현 연구를 위해 NGS 플랫폼을 이용하여 Tag-Seq 방법(Morrissy AS et al., 2009)도 새롭게 개발되었다. 또한 non-coding RNA 중에 microRNA는 길이가 짧기 때문에 아주 효율적으로 NGS 기술을 이용할 수 있다.


최근 후생유전학 분야에서 히스톤 post-translational modifications (PTM)의 위치나 genome-wide DNA 메틸화(Methylation) 패턴을 분석하기 위해 Chromatin Immunoprecipitation (ChIP)을 마이크로어레이 기술(ChIP-chip)에 적용한 연구 결과들과 함께 NGS 기술을 이용한 ChIP-Seq 결과들도 다수 보고되고 있다. 특히 질환 관련 연구에서 각 환자의 개인차를 고려하였을 때 sample size와 함께 비용의 문제가 대두되며, 난치병 극복을 위해서 는 RNA-Seq, ChIP-Seq 등의 방법들이 현재보다 저비용으로 많은 연구자들이 활용할 수 있어야 한다.


2.4. 암유전체프로젝트(cancer genome project)

복합질병에 대한 유전체 분석과 함께 현재 NGS 기술이 가장 효율적으로 적용되기 위해 다양한 시도가 진행되고 있는 분야가 난치병인 암과 관련된 프로젝트일 것 이 다 . The Cancer Genome Atlas(TCGA)는 Baylor 의대, Broad Institute와 Washington 대학의 게놈센터를 중심으로 마이크로어레이 기술을 중심으로 시작되었지만 현재는 Exon 시퀀싱이 추가되어 수백명의 뇌, 폐, 유방암 환자들의 암게놈프로젝트(Cancer Genome Project )를 진행하고 있다.

또한 2008년 4월에 주요 암의 게놈 이상(변이) 카탈로그를 작성하기 위한“국제 암게놈 컨소시엄”(International Cancer Genome Consortium: ICGC)이 발족되었다(Stratton MR et al., 2009). 세계 10개국이상의 다기관이 참가하여 임상적인 기준 하에 선택된 수십 종의 암에 대하여 10,000명 이상의 암환자의 시퀀싱을 목표로 하고 있으며 이는 암의 예방이나 진단은 물론 새로운 치료법과 신약 개발을 위해 매우 중요한 프로젝트가 될 것으로 예상된다.


그러나 일본과 중국이 위암과 간암의 시퀀싱 부분을 담당하였지만 아직 우리 나라의 어느 그룹도 공식적으로 국제 암게놈 프로젝트 ICGC에 참여하지 못하고 있는 실정이다. ICGC에서도 시퀀싱 비용을 고려하여 Exome 시퀀싱을 목표로 출발하였지만, 급속한 시퀀싱 비용의 저하로 수만명의 암환자의 게놈 시퀀싱을 계획하고 있다.



3. 차세대 생물정보학


현재 NGS 데이터 분석에서 가장 중요한 단계는 시퀀스 데이터를 레퍼런스에 맵핑하는 것이다. BLAST와 같은 툴은 NGS 데이터에 적용하기에는 계산 시간이 너무 긴 문제점이 있다. NGS 데이터 분석을 위해 ELAND2, MAQ, BOWTIE, SOAP2, BWA 등 매우 다양한 분석방법들이 개 발 되 었 고 , 이 중에 BWT (Burrows-Wheeler Transformation) 알고리즘을 사용하는 툴의 경우(BOWTIE, SOAP2, BWA)에는 일반적으로 BLAST에 비해 수백~수만배의 속도로 맵핑이 가능하게 되었다.

어노테이션 정보와 함께 생성된 테라급 데이터를 분석하기 위해서는 많은 스토리지가 필요하며, 생물정보학적 툴의 개발이 필요하다. 시퀀싱 데이터 분석을 위해 크게 Alignment를 직접적으로 분석하면서 얻어지는 SNP, MNP, Short InDel 등 정보와 Paired-end 시퀀싱 Alignment에서 Alignment를 찾을 수 없는 Unpaired Alignment를 이용하여 얻어지는 각종 Long deletion 및 Structural Variation (Inversion, Translocation)을 생각할 수 있다. 또한 Coverage를 기반으로 계산이 가능한 CNV (Copy Number Variation)가 있다.

이렇게 얻어진 각종 변이(Variation) 데이터들은 기존에 이미 알려진 DB인 dbSNP, DGV, HGMD 등과 비교하거나 이미 알려진 유전자 구조 정보를 활용함으로써 좀더 유용한 정보를 얻을 수 있다. 계산 시간을 단축시키거나 효율을 높이기 위해서는 게놈 시퀀싱 데이터의 read 길이에 따라 다양한 소프트웨어를 조합하여 활용하는 방안을 모색하는 것도 필요하다. Hybridization 기술과 NGS 기술의 조합에 의한 타겟 시퀀싱의 경우에도 위에서 기술한 각종 생물정보학 알고리즘 및 도구 개발에 의해서 분석이 가능하나, 특정한 부분만을 선별해서 분석을 해야 하므로 데이터 분석에 주의하여야 한다.

NGS의 Short read Alignment 도구에 대한 비교분석과 런닝 시간(그림 2)에 대한 비교분석의 정보는 웹사이트 등을 참조하면 구체적으로 정리되어 있다.

Transcriptome 시퀀싱은 변이체 분석과 Alternative Splicing, Fusion Gene 분석을 위한 두 개의 모듈로 구분할 수가 있다. 변이체분석은 게놈 시퀀싱 데이터 분석과 동일한 방법으로 발현된 유전자의 CDS 영역에서의 변이에 대한 분석이 가능하다.

그러나, RNA-Seq 데이터에서 Alternative Splicing 분석은 게놈 이외에 Transcriptome DB로의 Alignment를 Parsing, Annotation하는 부분이 필수적이다. 유전자 발현연구에 있어 RNA-Seq은 마이크로어레이 기술을 대체할 것으로 예상되며, 이미 광범위하게 수행되고 있는 유전자 레벨에서의 발현뿐만 아니라 엑손 레벨에서의 발현, 변이, Splicing 등 지금까지 미미했던 다방면에서의 연구가 가능하다. 이는 단순한 발현의 높낮이에 의한 바이오마커를 포함하여 유전자의 구조적 변이에 의한 질적인 발현 정보(DGE)를 이용하여 각종 마커를 발굴할 수 있다는 점을 의미한다.


인간의 민족적 배경이나 개인차, 복합질병 및 암과 같은 난치병을 이해하기 위해서 게놈의 구조적 변이를 파악하고 특징짓는 것은 매우 중요하다. 특히 짧은 Insert와 paired-end 시퀀싱에 바탕을 둔 NGS 기술을 이용할 때의 어려움은 매우 크며, 이를 해결하지 못하면 NGS 기술의 활용도는 낮아진다. 이러한 문제들을 손쉽게 접근하기 위해 관련 분야의 연구자들이 생물정보학적 도구들 개발에 정진하고 있다. 예를 들어, BreakDancer (Chen K et al., 2009)와 같은 알고 리즘들이 개발되고 있지만 아직 InDel의 크기에 따른 정확도가 낮은 편이며, NGS 기술의 발전과 함께 생물정보학 분야의 인프라 구축이 중요하다.

결론


개인의 DNA 염기서열 정보는 현재와 미래의 질병관련 정보를 파악할 수 있는 핵심적인 데이터이며 예방차원이 대비가 가능하거나 질병의 초기 단계에서 최적의 치료방법을 선택할 수 있는 중요한 잣대이다. 동시에 기능이 규명되지 못한 많은 유전자와 단백질의 기능유전체학 연구가 보다 활발하게 진행되어야 한다.


관련 분야의 효율적인 시퀀싱 프로젝트 진행을 위해서는 실험 방법이나 과정을 제대로 이해하는 것부터 시작하여 유전학적 지식을 바탕으로 대용량 시퀀싱 데이터를 효율적으로 활용할 수 있는 기반이 체계적으로 구축되어야 한다. 기술적으로 2세대 시퀀싱 시기를 지나 수년 이내에 3세대 시퀀싱(Single Molecule 시퀀싱, Nanopore 시퀀싱 등) 기법들이 일반화 되면 처리 속도는 물론 수천달러 혹은 수백달러의 비용으로 수십분 안에 개인 게놈 시퀀싱이 가능할 것으로 예측된다. 바이오-의약 분야의 R&D 확대 및 이에 대비한 환경을 조성하여야 한다.



인간 게놈해독 연구 발전사

2003 Human Genome Project - 27억 달러 (13년)

2007 J. Craig Vender - 1억달러 4년

2008 Jameds Watson 100만 달러 4개월

2008 요루바 아프리카인 게놈 해독 - 25만 달러 2개월

2009 한국인 게놈 해독 - Genome Research (2009.5.26)

2009 Nature Biotechnology (8월 10일) - 4만 8천 달러 4주

2009 Science - Complete Genome 사의 제3세대 시퀀서 최초 활용 예 (11월 5일) 4,400 달러

2010 Glenn Close (럴리우드 여배우) - 4만8천 달러

Illumina' Personal Genome Sequencing Service (2010.3.11)

최초의 여성 게놈해독, 최초의 과학자가 아닌 유명인 게놈해독

2010 Charcot-Marie-Tooth disease 원인유전자 연구 - 5만 달러

2010 Miller Syndrome & PCD (Primary Cilliary Dyskinesia, 원발성섬모 이상운동증) 원인유전자 연구 - 어린이 환자 2명을 포함한 가족 4명을 시퀀싱 - 2만5천 달러




차세대, 제3세대, 제4세대 게놈시퀀서 이야기


Roche 454, Life Techhnologies (ABI) SOLiD는 Emulsion PCR을 사용해서 어떤 비즈 주위에 DNA를 고정해서 증폭하는 방식이고, illumina Solexa는 Bridge PCR로 DNA 단편의 양끝을 구부려 판 위에 고정해서 증폭하는 방식이다. 전체적으로 SOLiD가 약간 특이해서 DNA polymerase가 아니라 ligation을 사용한 2 base encoding이라는 방식을 사용한다. 아무튼 세 기종은 계속해서 성능이 개선되고 있어서 최신형을 파악하기란 어려운데 서로간에 몇 가지 특징으로 나눠진다.


Roche 454는 읽어내는 DNA 단편인 read가 가장 길다. 이 말은 같은 그림이라도 퍼즐이 큼직큼직해서 그림을 맞추기 쉽다는 뜻으로 기술적으로는 가장 결점이 적고, DNA 이중나선 발견한 왓슨 박사의 게놈을 해독한 것으로 유명하다. 최신형으로는 GS FLX Titanium Sequencer를 소형화한 GS Junior System을 내놓았는데 read length가 약 400 염기에 이른다(99% accuracy at 400 bases). 454 Sequencer는 원래 CuraGen사에서 발명하어 자회사로 454사를 설립했었는데 CuraGen이 2007년 5월에 454사를 로슈에 매각했다. 그래서 현재는 로슈 산하의 454 Life Sciences사에서 시퀀서가 나오는 셈이다.

http://www.454.com/


illumina Solexa(Genome Analyzer and HiSeq)는 원래 Solexa라는 회사였다가 2006년 11월에 일루미나에 매수되었고 차세대 시퀀서 Genome Analyzer라는 이름으로 나오게 되었다. 35~100염기의 read length를 가지므로 454보다는 성능이 떨어지는 것처럼 보이지만, Solexa는 짧은 read로도 게놈 리시퀀싱(resequencing)이 가능하고, 심지어는 reference sequence를 참조하지 않는 de-novo sequencing도 가능하여 지금 시장에서 1위를 하고 있다. 그리고 세 기종 중에서 운영비용이 가장 저렴하다.


리시퀀싱이라는 것은 게놈 프로젝트로 미리 게놈 서열이 하나 정해져 있어서 그것을 reference sequence로 삼아서 거기에 새로운 게놈 서열을 맞춰가는 방식으로 시퀀싱을 하는 것이고 de-novo sequencing이라는 것은 백지상태에서 처음부터 시퀀싱을 하는 셈이다. 흔히 퍼즐완성 그림을 놓고 퍼즐을 맞추는 것과 그림 없이 퍼즐을 맞추는 것으로 비유할 수 있다. 2010년 6월7일 뉴스에 따르면 미국 브로드 연구소(Broad Institute)가 최신형인 HiSeq 2000을 51대 구입하였는데 이것을 이용하여 2명의 인간 게놈을 $10,000에 해독할 수 있다고 하였.

http://www.illuminakk.co.jp/product/system/index.shtml


SOLiD Sequencer는 Applied Biosystems (현재는 Life Technologies)사 제품으로 원래 Agencourt Bioscience사가 개발했는데 2005년 4월에 Beckman Coulter에 매수되었고, 본 기술의 개발부문이 다른 회사인 Agencourt Personal Genomics사로 분리되었다. 그 후, Applied Biosystems가 2006년 5월에 Agencourt Personal Genomics사를 매수해서 SOLiD 시퀀서는 Applied Biosystems의 제품으로 2007년 가을에 발매되었다. 그 후 Invitrogen이 2008년 11월에 Applied Biosystems를 매수하면서 Life Technologies가 탄생했다. 그래서 지금 정확히는 Life Technologies사에서 SOLiD 가 나온다고 할 수 있다.


SOLiD는 Solexa에게는 뒤쳐졌지만, 시퀀싱 과정 자체에 일종의 에러체크 기능이 있어서 다른 기종보다 훨씬 높은 정확도를 자랑한다. 특히 SNP이나 삽입, 결실 등의 변이정보를 확인하는데 매력적이라는 평이다. 2010년 7월 현재 SOLiD4의 경우 정확도 99.94%로 인간 게놈 해독을 $6,000에 해낼 수 있으며, 2010년 말에는 SOLiD4hq 시스템이 나와서 정확도 99.99%로 $3,000에 가능하게 된다(human genome at 30-fold coverage). 바로 그러한 이유 때문에 미국에서 맞춤의학에 초점을 맞춘 이그나이트 연구소(ignite institute)는 100대의 SOLiD4 시퀀서를 구입하였다.

http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid-next-generation-sequencing/next-generation-systems.html


이 세 가지 기종 외에 Helicos의 Heliscope도 있는데, 일본의 이화학연구소 (리켄; RIKEN)에서는 SOLiD, Solexa에 이어서 Heliscope도 구입해서 연구에 활용하고 있다.


차세대, 다시 말하면 제2세대 시퀀서에서의 이러한 치열한 경쟁 뒤에는 또한 제3세대, 제4세대 시퀀서가 대기하고 있다. 제3세대 시퀀서라는 것은 1분자 리얼타임 시퀀싱이라는 특징을 가지는데 DNA 1분자를 주형으로 DNA 합성효소로 DNA 합성을 해서 1염기마다의 반응을 형광, 발광 등의 빛으로 검출해서 실시간으로 염기서열을 결정한다. Life Technologies의 경우에는 VisiGen이라는 제3세대 시퀀서를 준비하고 있으며 Pacific Biosciences, Columbia Univ., Harvard Univ. 등이 경쟁 중이다.


제4세대 시퀀서는 지금까지의 빛을 검출하는 방식이 아닌 새로운 방식으로 염기서열을 초병렬적으로 결정하는 방식이라고 한다. 일루미나는 염기를 읽을 때 형광색소를 사용하지 않고 염기가 막을 통과할 때의 전위변화를 읽어내는 방식의 시퀀서를 개발 중인 옥스퍼드 나노포어 테크놀로지(Oxford Nanopore)에 투자 중이다. 또한 2010년 7월 1일의 발표에 따르면 IBM은 로슈와 손을 잡고 DNA Transistor라는 제4세대 시퀀서를 개발 중이다. nanopore가 있는 실리콘 칩을 제작해서 DNA가 nanopore를 통과할 때의 전압의 변화를 검출해서 염기서열을 결정하는 원리라고 한다. 서열 결정 비용이 저렴해지고 시퀀서 자체도 소형화될 것으로 기대된다.

http://454.com/about-454/news/index.asp?display=detail&id=148


물론 현 시점에서 제3세대, 제4세대 시퀀서가 어떻게 전개되어 누가 승리할 것인지는 예측할 수 없다. 아주 혁신적인 원리가 사용되었는데도 결국 실제 상품화가 어려울 수도 있고, 상품화는 되었는데 관리가 너무 어려울 경우, 예를 들어 아주 미세한 진동도 허용하지 않아서 설치와 운용 자체가 어렵다든가 하는 문제가 생길 수도 있기 때문이다.

'Informatics > Genome Informatics' 카테고리의 다른 글

Genome / BeadArray  (0) 2011.04.15
Genome / DNA Base-Calling Project  (0) 2011.04.15
Genome / 유전자 검사  (1) 2011.04.15
Genome / SNP  (0) 2011.04.15
Genome / SIFT(Sorting Intolerant From Tolerant)  (0) 2011.04.14

+ Recent posts