해당 글에서는
1. 데이터 전처리가 무엇인지?
2. 데이터 전치리가 왜 필요한지?
3. 데이터 수집 과정에서 '방해요소와 데이터 전처리의 효과'
에 대한 내용을 다룹니다.
1. 데이터 전처리는 무엇일까?
데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 가공하는 과정입니다.
데이터 분석 단계는 '1) 데이터 습득/선택 2) 데이터 전처리 3) 데이터 마이닝 4) 해석평가'로 이루어지는데, 데이터 전처리 과정은 2번째 단계에 해당합니다. 크게는 데이터 분석, 작제는 데이터 전처리는 주로 AI 모델을 통한 학습 전에 해당 데이터를 학습에 편하게 변형하는 과정에서 많이 사용됩니다.
2. 데이터 전처리는 왜 필요할까?
데이터 전처리는 데이터 분석 파이프라인을 구성하는데 있어 중요한 단계입니다. 전처리 과정은 정제되지 않은 raw data를 분석에 적합한 형태로 변환하면서,모델의 정확성과 효율성을 향상시킵니다. 이를 통해 보다 모델의 예측을 신뢰할 수 있고 해석 가능한 결과가 나올 수 있도록 해주는 주요한 역할을 수행합니다.
데이터를 수집하는 과정에서 여러 방해 요소가 존재합니다. 데이터 전처리를 통해 여러 요소들을 고려하여 분석에 적합한 데이터로 변환하는 과정이 필요합니다.
*아래는 방해요소들과 데이터 전처리의 효과를 작성한 것입니다.
3. 방해요소 & 데이터 전처리의 효과 정리
- 잡음(noise)
- 수집 과정에서 무작위로 발생하여 측정한 데이터의 오차를 발생시킨다.
- 전처리는 데이터를 정제하고, 노이즈가 모델에 미치는 영향을 줄일 수 있다.
- 인위적 생성물(artifact)
- 데이터를 수집하는데에 있어서 어떠한 요인으로 인하여 반복적으로 발생하는 왜곡이나 오차가 존재한다.
- 예를 들어, 카메라 렌즈에 얼룩이 묻어있는 상태로 찍힌 이미지 데이터를 처리하는 데에 있어서 이러한 얼룩을 전처리를 통해 수정해주지 않는다면 왜곡이 발생한다.
- 정밀도(precision)
- 어떠한 대상을 반복적으로 측정하여 데이터를 수집한다고 할 때,
관측자의 실수나, 관측 장비 자체의 오차등으로 인해 매 측정마다 일관적인 결과가 나오지 않을 수 있다.
- 같은 1g을 측정한다해도 0.991g, 1.003g, 0989g등의 결과값이 나올 수 있다. 어느정도의 편차를 고려하여 전처리를 하는 과정이 필요하다.
- 결측지 (missing values)
- 수집된 데이터는 종종 결측값을 포함하고 있다.
- 예를 들어 설문조사를 진행할 경우, 어떤 참여자들은 특정 질문에 대답을 원치 않을 수 있다.
- 결측값을 대체하거나, 결측값이 포함된 행/열을 제거하는 방법으로 이를 해결해야 한다.
- 편향(bias)- 데이터 수집 과정에서 특정 유형의 개체 또는 사례가 다른 것보다 더 많이 또는 적게 선택되어, 샘플이 전체 모집단을 대표하지 못하는 경우가 발생할 수 있다.
- 이상치(outlier)
- 이상치(Outlier)란 수집된 데이터 중에서 나머지 데이터에서 크게 벗어난 값을 가진 샘플이다.
- 이상치는 데이터 집합의 전반적인 패턴과 크게 다르거나 예상 범위를 벗어난 값이기에 모델링이나 분석과정에서 문제를 발생시킬 수 있다.
해당 방해 요소 중에서,
잡음(noise)는 임의로 발생하는 예측하기 어려운 요인이지만, 이상치는 확인이 가능합니다.
제조과정에서 불량품을 탐지하거나, 신용사기를 예측하는 등 이상치를 찾아내는 것 자체가 중요한 분석의 목적이 될 수 있습니다.
다음과 같은 이유에서 데이터 전처리는 데이터 분석에 있어서 매우 중요한 부분입니다. 다음 포스트는 이어서, 어떠한 데이터 전처리 기법들이 있는지 다뤄보고자 합니다. 관심있는 분들은 참고해주세요:)
'데이터 분석 • 처리' 카테고리의 다른 글
차원 축소(Dimensionality Reduction) 개념과 Wrapper 기법 (0) | 2024.05.17 |
---|---|
박스 플롯(IQR 사분위수): 이상치 찾기 (0) | 2024.03.26 |
데이터에 NULL이 포함되면 어떻게 처리해야할까? (결측치 처리) (2) | 2024.03.16 |
노이즈(noise) 기법 (0) | 2024.02.23 |