- 데이터 전처리
1. 데이터 전처리란 무엇인가?
- 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 말한다.
- raw 데이터를 clean 데이터로 만드는 작업으로 데이터를 가공하여 분석에 적합한 형태로 만드는 모든 과정을 의미한다.
- 전처리를 어떻게 하는지에 따라서 분석 결과에 영향을 미친다.
2. 데이터 전처리 방법
출처 : https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0
Big data preprocessing: methods and prospects - Big Data Analytics
The massive growth in the scale of data has been observed in recent years being a key factor of the Big Data scenario. Big Data can be defined as high volume, velocity and variety of data that require a new high-performance processing. Addressing big data
bdataanalytics.biomedcentral.com
- 중복값 제거, 결측치 처리, 데이터 병합, 정규화, 노이즈 처리, 이상치 처리, 범주형 변수 처리 등이 있다.
- 결측치 제거 : 결측값은 데이터에 없는 값으로, 이는 데이터 분석 결과에 큰 영향을 미치기에 1) 결측값을 대표값(최빈값, 평균 등등)으로 대체하거나, 2) 해당 열들의 값들을 기반으로 결측값을 예측하거나, 3) 결측값이 있는 데이터를 삭제함으로써 결측치를 처리한다.
- 이상치 처리 : 이상치는 다른 값들과 크게 차이 나는 값이다. 1) Q1 - (IQR*1.5) 또는 Q3 + (IQR*1.5) 의 범위를 지정하여 제외하거나, 2) 이상치의 기준이 되는 기준선을 실험 환경의 특성에 맞추어 주관적으로 설정하고, 이상치를 제외하여 처리하는 방식이 있다.
- 중복값 제거 : 같은 값을 가진 데이터 없이 행별로 값이 유일해야 한다면 중복 데이터를 제거해야 한다.
- 정규화 : 수치형 데이터에서 각 컬럼마다 단위가 달라 스케일이 크게 차이가 날 경우, 머신러닝 모델 학습에 문제가 발생할 수 있다. 따라서 컬럼 간 범위가 크게 다를 경우 데이터 정규화를 통해 스케일을 유사하게 변경한다.
- 노이즈 처리 : 데이터 노이즈는 측정된 변수위 무작위 오류 또는 분산을 나타내고, 데이터에 포함된 무작위 오류 또한 불규칙성을 나타낸다. 구간화, 회귀, 군집화의 방법을 사용하여 처리한다.
- t-test
1. t-test의 목적
- 두 집단이 같은지 다른지 비교하기 위한 것이다.
- 두 개의 집단을 비교하기 위해 통계적인 측정값 평균을 사용
- 평균값은 데이터의 중심을 대표하는 대표값으로 두 집단의 동질 여부 비교 가능
- '두 모집단의 평균간의 차이는 없다' 라는 귀무가설과 두 모집단의 평균 간에 차이가 있다' 라는 대립가설중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.
2. t-test를 위한 사전 조건
- 표본이 독립적인가?(t-test, paired t-test)
- 수집된 데이터가 정규 분포를 따르는가?(wilcoxon test)
- 집단이 두 개 인가?(anova)
3. 표본이 독립적인가?
- 표본이 독립적이라는 뜻은 표본으로부터 측정한 관측치가 다른 표본에 의해 영향받지 않는 다는 것을 의미한다.
- 표본이 독립적인 경우 t-test를 사용하며, 표본이 독립적이지 않다면 paired t-test를 사용한다.
4. 수집된 데이터가 정규 분포를 따르는가?
- 정확히 정규분포를 따르는 지 확인하기 위해 shapiro.test() 사용
- shapiro.test() 의 귀무가설이 '수집된 데이터가 정규 분포를 따른다' 이므로 p-value가 0.05보다 커야 귀무가설을 기각하지 않게 되어 정규분포를 따름을 확인할 수 있다. 만약 정규분포를 따르지 않는다면 wilcoxon test라는 다른 방법을 사용하면 된다.
5. 집단이 두 개인가?
- 집단이 두 개라는 것은 비교군과 대조군이 각 1개씩 존재한다는 뜻과 유사하다.
- anova는 집단이 3개 이상일 경우 사용하는 분산분석 방법이다.
- 세 집단 이상의 평균을 비교하는 데 유용한 방법이다.
출처 : https://brunch.co.kr/@jihoonleeh9l6/33
'Sprint_DA01 > 위클리 페이퍼' 카테고리의 다른 글
위클리 페이퍼 #6 - 차원의 저주 / 고유값, 고유벡터 / 히스토그램에 대하여. (0) | 2024.08.03 |
---|---|
위클리 페이퍼 #5 - 절대 경로와 상대 경로, Git 그리고 branch (0) | 2024.07.19 |
위클리 페이퍼 #4 - 클래스와 인스턴스, 정적 메소드 (2) | 2024.07.12 |
위클리 페이퍼 #2 - 제 1종오류, 제 2종오류 및 p-value (0) | 2024.06.28 |
위클리 페이퍼 #1 - 사분위수, 기술통계 및 추론통계 (0) | 2024.06.28 |