Statistics / M-fold cross-validation

2011. 7. 28. 11:44

m-fold cross-validation 을 하는 방법은,

original sample을 m개의 subset sample로 나눈다

이 가운데 (m-1) 개의 subset을 사용해 training 한 후 나머지 1개의 subset을 validation한다.

위의 2번 을 모든 subset에 대해서 각각 1번씩 validation 수행

m개의 validation결과를 average 하거나 (혹은 다른 방법으로 combination 해서) single estimation 결과를 산출

m-fold cross-validation의 장점은 모든 observation이 training과 validation에 모두 사용된다는 것이다. 또한, observation은 모두 단 1번만의 validation이 수행된다. 10-fold cross-validation이 일반적으로 사용된다.

m개의 subset을 나눌때는 mean이 동일하도록 나눠야 한다. 즉, 2 class 문제의 경우, 각각 class가 subset에 가능한 동일한 비율로 분포되도록 나눠줘야 한다.

출처: http://salkuma.wordpress.com/2010/06/15/m-fold-cross-validation/

k-묶음 교차 검증법은 수집된 샘플들의 검증을 위한 통계적인 분석 방법이다. 전체 집합을 k개로 나눈 뒤 하나를 다른 것들과 비교하여 전체적으로 특이한 집합이 없는지 확인하는 방식이다. 인공지능의 데이터 마이닝 연구에서 주로 사용된다. 수행 방법은 다음과 같다.

수집된 최초의 오리지널 샘플을 K개의 서브샘플로 나뉜다. 하나의 서브 샘플은 모델의 테스트를 위한 validation 데이터로 두고 남은 K-1개의 서브 샘플들은 트레이닝 데이터로 사용된다. 모든 서브샘플들이 validation 데이터로 정확히 한번씩 사용될 때까지 K개의 서브샘플들은 cross-validation 프로세스 동안 K번 반복된다. 프로세스의 각 스텝마다 각 부분으로부터 나온 K개의 결과는 하나의 평가 지표로 만들기 위해 평균을 구하며, 이를 이용해 검증을 수행할 수 있다.

[출처] k-fold Cross validation|작성자 이도운

'Informatics > Medical & Bio Statistics' 카테고리의 다른 글

Statistics / 조건부 확률과 SNP (0)	2011.10.06
Statistics / Precision, Recall (0)	2011.07.29
Statistics / Ubuntu(Linux)에 R, R pacakge 설치하기 (0)	2011.07.12
Statistics / odds, odds ratio, relative risk (0)	2011.06.16
Statistics / Post-test Probability (0)	2011.04.14

SNOWPLE

Statistics / M-fold cross-validation

'Informatics > Medical & Bio Statistics' 카테고리의 다른 글

+ Recent posts

티스토리툴바