본문 바로가기
Sprint_DA01/위클리 페이퍼

위클리 페이퍼 #3 - 데이터 전처리, t-test

by Toddler_AD 2024. 7. 7.
  • 데이터 전처리

1. 데이터 전처리란 무엇인가?

 - 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 말한다.

 - raw 데이터를 clean 데이터로 만드는 작업으로 데이터를 가공하여 분석에 적합한 형태로 만드는 모든 과정을 의미한다.

 - 전처리를 어떻게 하는지에 따라서 분석 결과에 영향을 미친다.

 

2. 데이터 전처리 방법

출처 : https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0

 

Big data preprocessing: methods and prospects - Big Data Analytics

The massive growth in the scale of data has been observed in recent years being a key factor of the Big Data scenario. Big Data can be defined as high volume, velocity and variety of data that require a new high-performance processing. Addressing big data

bdataanalytics.biomedcentral.com

 - 중복값 제거, 결측치 처리, 데이터 병합, 정규화, 노이즈 처리, 이상치 처리, 범주형 변수 처리 등이 있다.

 - 결측치 제거 : 결측값은 데이터에 없는 값으로, 이는 데이터 분석 결과에 큰 영향을 미치기에 1) 결측값을 대표값(최빈값, 평균 등등)으로 대체하거나, 2) 해당 열들의 값들을 기반으로 결측값을 예측하거나, 3) 결측값이 있는 데이터를 삭제함으로써 결측치를 처리한다.

 - 이상치 처리 : 이상치는 다른 값들과 크게 차이 나는 값이다. 1) Q1 - (IQR*1.5) 또는 Q3 + (IQR*1.5) 의 범위를 지정하여 제외하거나, 2) 이상치의 기준이 되는 기준선을 실험 환경의 특성에 맞추어 주관적으로 설정하고, 이상치를 제외하여 처리하는 방식이 있다.

 - 중복값 제거 : 같은 값을 가진 데이터 없이 행별로 값이 유일해야 한다면 중복 데이터를 제거해야 한다.

 - 정규화 : 수치형 데이터에서 각 컬럼마다 단위가 달라 스케일이 크게 차이가 날 경우, 머신러닝 모델 학습에 문제가 발생할 수 있다. 따라서 컬럼 간 범위가 크게 다를 경우 데이터 정규화를 통해 스케일을 유사하게 변경한다.

 - 노이즈 처리 : 데이터 노이즈는 측정된 변수위 무작위 오류 또는 분산을 나타내고, 데이터에 포함된 무작위 오류 또한 불규칙성을 나타낸다. 구간화, 회귀, 군집화의 방법을 사용하여 처리한다.

 

  • t-test

1.  t-test의 목적

  - 두 집단이 같은지 다른지 비교하기 위한 것이다.

  - 두 개의 집단을 비교하기 위해 통계적인 측정값 평균을 사용

  - 평균값은 데이터의 중심을 대표하는 대표값으로 두 집단의 동질 여부 비교 가능

  - '두 모집단의 평균간의 차이는 없다' 라는 귀무가설과 두 모집단의 평균 간에 차이가 있다' 라는 대립가설중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.

 

2. t-test를 위한 사전 조건

  - 표본이 독립적인가?(t-test, paired t-test)

  - 수집된 데이터가 정규 분포를 따르는가?(wilcoxon test) 

  - 집단이 두 개 인가?(anova)

 

3. 표본이 독립적인가?

  - 표본이 독립적이라는 뜻은 표본으로부터 측정한 관측치가 다른 표본에 의해 영향받지 않는 다는 것을 의미한다.

  - 표본이 독립적인 경우 t-test를 사용하며, 표본이 독립적이지 않다면 paired t-test를 사용한다.

 

4. 수집된 데이터가 정규 분포를 따르는가?

  - 정확히 정규분포를 따르는 지 확인하기 위해 shapiro.test() 사용

  - shapiro.test() 의 귀무가설이 '수집된 데이터가 정규 분포를 따른다' 이므로 p-value가 0.05보다 커야 귀무가설을 기각하지 않게 되어 정규분포를 따름을 확인할 수 있다. 만약 정규분포를 따르지 않는다면 wilcoxon test라는 다른 방법을 사용하면 된다.

 

5. 집단이 두 개인가?

  - 집단이 두 개라는 것은 비교군과 대조군이 각 1개씩 존재한다는 뜻과 유사하다.

  - anova는 집단이 3개 이상일 경우 사용하는 분산분석 방법이다. 

  - 세 집단 이상의 평균을 비교하는 데 유용한 방법이다.

 

출처 : https://brunch.co.kr/@jihoonleeh9l6/33