Reference 샘플 대비 target 샘플에서 RNA expression 발현량이 차이가 나는 유전자를 분석하거나, 또는 SNP 와 질병과의 연관 관계 분석 (association analysis, 일반적으로 case-control study) 에서 질병에 영향을 줄 수 있는 allele 또는 genotype 을 보유한 SNP 를 찾아낼 때 다양한 통계적인 방법을 적용하게 됩니다. 특히 RNA expression 발현량 차이 분석에서는 T-test 나 ANOVA 와 같은 통계 방법을 이용하게 되며 case-control study 에서는 chi-square test 또는 logistic regression 을 이용하게 됩니다. 이러한 통계 방법을 이용하여 분석을 하게 되면 결과적으로 p-value 가 나오게 되는데, 미리 설정한 cutoff (a, significance level, 유의 수준, 일반적으로 a=0.01 또는 0.05) 값과 p-value 를 비교하여 해당 유전자 또는 SNP 가 통계적으로 의미 있는지를 판단하게 됩니다. 하지만, RNA expression 실험이나 SNP 를 이용한 GWAS (Genome-wide Association Study) 를 수행할 경우에는 최소 수백개 에서 수만개 이상의 유전자 또는 SNP 을 동시에 통계 테스트를 하기 때문에 multiple test correction 을 수행할 필요가 있습니다. Multiple test correction 방법으로는 크게 FWER (Family-wise Error Rate) 과 FDR (False Discovery Rate) 이 있는데, FWER 은 테스트 대상이 모두 독립이라는 가정을 이용하기 때문에 굉장히 conservative 합니다. 반면 FDR 은 p-value < a 인 것들 중에 false positive 인 것들의 비율이 어느 정도인지를 나타내는 것이므로 FWER 에 비해 덜 conservative 하며, 따라서 FWER 에서 제외될 수 있는 true positive 들을 살릴 수 있다는 장점이 있습니다.

FDR 은 p-value < a 인 것들 중에서 false positive 인 비율을 나타내고 있는 반면에 q-value 는 테스트 대상인 유전자 또는 SNP 의 분석 결과인 p-value 가 false positive 인 것으로 잘못 판단 내릴 확률을 나타내는 수치입니다. 따라서 n 개의 계산된 p-value 가 있다고 한다면 q-value 또한 n 개가 됩니다.

아래는 p-value 와 q-value 에 대한 설명을 요약한 것입니다 (SNP 를 이용한 case-control study 일 경우를 가정했습니다).

u  P-value
§  SNP 에서 관측되는 genotype(또는 allele) 빈도가 case 와 control 그룹에서 실제로는 차이가 나지 않음에도 불구하고 통계분석(chi-square test) 결과 차이가 나는 것으로 (=false positive) 잘못 판단 내릴 확률

u  Q-value
§  SNP 에서 관측되는 genotype(또는 allele) 빈도가 case 와 control 그룹에서 통계적으로 차이가 나는 것으로 판단을 내렸는데, 실제로는 차이가 나지 않을 (=false discovery) 확률

QVALUE 프로그램은 이러한 q-value 를 쉽게 계산해 주는 프로그램입니다. 기본적으로 R 패키지 형태로 제공되는데, R 을 실행한 후 명령창 에서 해당 프로그램을 실행시켜주면 GUI 가 떠서 분석을 수행할 수 있는 구조로 되어 있습니다.

출처: http://bric.postech.ac.kr/myboard/read.php?Board=mini_notes&id=636

+ Recent posts