2009.12.09. 박래웅교수님 발표 요약

1. 임상연구의 필요성
의뢰자 주도 또는 연구자 주도 임상연구
- 결과에 영향을 미치는 변수를 최대한 배제
- 실제 임상환경과 다른 테스트 환경
실제 벌어지는 다양한 임상환경에 보편적으로 적용이 가능한가?

2. 연구설계
관찰연구
* 비교대상: Y- 코호트, 환자대조군연구, 단면적, N- 관찰사례보고
- 환자사례
- 단면연구
- 환자대조군 연구
임상실험
- 무작위배정 연구

3. 정보보호
IRB 심의면제신청 대상
- 무명화 또는 익명화 조치가 필요
- 환자-대조군 연구가 기록 검토에만 국한된 경우 가능
- 사생활보호 준수 및 기밀유지를 위한 조치 명시
- 개인식별이 가능한 관련 정보의 비가역적인 완전한 삭제
- 개별적으로는 신상정보가 아니지만 조합하면 대상자를 좁힐 수 있는 정보가 포함되서는 안됨
- 주민번호, 병원등록번호, 이름, 주소, 우편번호 뒷자리, 날짜(생일, 입원일), 전화번호, Fax, 이메일, 계좌번호, 면허번호, 얼굴사진 등
- 우편번호 앞자리, 년도 포함가능

4. 데이터 마트 설계 및 구축
Raw Database를 이해
- 테이블 정의서
- ERD

데이터 이전: ETL(Extract Transform Load)
- 데이터의 오류를 최소화하기 위해 3단계로 나누어 진행(추출, 변환, 올리기)

데이터 품질관리(Data Quality Management, DQM)
- DB 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선 활동
- 확인해야 할 사항
: 엽무적 관점 - 원본데이터와의 비교(데이터 개수, 용량)
: 기술적 관점 - 원본 데이터의 중복 데이터, Null, Space 등 무의미 데이터 분석

데이터 전처리
- 데이터 요약
: 모수분포, 비모수분포의 구분이 필요함, skewness(자료의 분포), kurtosis(자료의 분포가 표족한지)
: SPSS 이용, 클레멘타인 프로그램 이용 - 값의 이상유무를 반드시 확인하여야 함. 0 or null or space 의 뜻을 분명히 해야함
- 데이터 정재
- 데이터 통합 및 전환
- 데이터 축소
- 이산화

분석(통계, 기계학습)

4. 데이터 전처리 방법

데이터 이상치
Geometric outliers: Data set 주변부에 있는 데이터
Distributional outliers: 밀도가 낮은 지역에 있는 데이터

데이터 이상치 검출방법
Visual-Based
- Boxplot
: First quartile and Third Quartile 를 IQR로 지정, IQR값의 1.5배를 inner fence로 지정, 그 이상 1.5배를 outer fence로 지정
: outer fence 이상은 이상수치로 생각해야함.
- Scatterplot
- Spin Plot
- Time-consuming, subjective

결측치
Complete case analysis
- null 값이 하나만 있어도 해당 case를 제거
- 간편, 일변량 통계량 비교 가능
- 많은 표본수의 감소 -> 검정력 약화

Available case analysis
- 각각의 변수에 사용 가능한 자료이용
- 표본수 확보에 유리
- 표본의 기저가 분석마다 변함
- 모수추정시 수학적 문제 발생

단순대치법: 결측치를 하나의 값으로 대치
- Unconditional mean imputation: 결측값을 관측된 평균값으로 대치, 분산값이 작아져서 실제보다 p value가 작아짐
- Conditional mean imputation
: Regression mean imputation- 회귀분석으로 결측값의 예측값을 구하여 대치
: Stochastic regression imputation- 회귀분석의 예측값과 임의로 추출한 오차를 합하여 대치
- Last observation carried forward(LOCF)- Longitudinal data에서 마지막 관측값으로 대치, 임상시험은 대부분 이 방법 이용
- Hot deck imputation / cold deck imputation
- Multiple imputation

Missing data 처리방법 간 비교
- Really bad missing data corrections
: complete case analysis
: available case
- Bad imputation techniques
: Mean substitution
- Questionable imputation techniques
: Regression imputation
: Stochastic regression imputation
- Good model-based imputation techniques
: multiple-group SEM
: Full information MAximum likelihood
- Very good data imputation techniques
: EM imputation
: Multiple imputation
- < 5%(Compelte case analysis), 15-25%(imputation), > 40%(분석에 무리가 있음)

전처리시 주의사항
전처리 과정을 재연할 수 있어야 한다.
데이터의 속성와 범위 등에 대한 인식이 필요
0, null, missing value의 의미 차이를 알아야 함
이상치에 대한 파악
연속형과 범주형의 정확한 설정: 베이지언의 경우 범주형의 데이터만 사용 가능하므로 연속형을 범주형으로 변환해야 함.




+ Recent posts