데이터 분석 • 처리 5

차원 축소(Dimensionality Reduction) 개념과 Wrapper 기법

목차:- 차원축소의 개념 및 활용 분야- 차원축소 기법- Mlxtend 파이썬 라이브러리- Wrapper*차원축소의 개념 및 활용분야차원축소(Dimensionality Reduction)는 고차원 데이터의 차원을 줄이는 과정으로, 데이터의 주요 정보를 최대한 유지하면서 차원을 줄여 데이터 분석, 시각화, 기계 학습 모델의 효율성을 향상시키기 위한 기술입니다.  차원축소는 주로 다음과 같은 이유로 사용됩니다: 1. 차원의 저주 극복: 고차원 데이터는 분석과 모델링 과정에서 계산 복잡성을 증가시키고, 과적합(overfitting) 문제를 초래할 수 있습니다. 차원축소는 이러한 문제를 줄여줍니다. 2. 시각화: 고차원 데이터를 2차원 또는 3차원으로 축소하여 데이터를 시각적으로 이해하기 쉽게 만듭니다. 3. ..

박스 플롯(IQR 사분위수): 이상치 찾기

해당 포스팅은 1. 박스 플롯(IQR 사분위수) 설명 2. Python 코드로 이상치 살펴보기 다음과 같은 순으로 정리해보고자 합니다. 1. 박스플롯(IQR 사분위수) 설명 '박스 플롯'은 '상자 수염 그림'(Box-and-Whisker Plot) '상자 그림' 등 다양한 이름으로 불린다. 박스 플롯(box plot)은 ①데이터의 대략적인 분포와 ②개별적인이상치들을 동시에 보여줄 수 있으며, 서로 다른 데이터 뭉치를 쉽게 비교할 수 있도록 도와주는 시각화 기법으로 가장 널리 쓰이는 시각화 형태 중 하나이다. 박스 플롯을 IQR 사분위수라고도 하는데, 박스 플롯의 상자는 아래 그림과 같이, 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)를 드러낸다. 각 분위 수는 전체 데이터를 100%로 보..

데이터에 NULL이 포함되면 어떻게 처리해야할까? (결측치 처리)

데이터셋에서 NULL 값이 있을 경우, 어떻게 해야할까요? 이번에는 데이터셋에 NULL 값이 표함된 경우 어떻게 해결하면 되는지 다룹니다. 데이터 정보가 빈/ 없는 데이터은 NULL로 표시되는데, 이를 " 데이터가 결측치를 포함하고 있다"라고 표현합니다. 먼저, 데이터셋에 NULL값이 포함되어 있는지 확인하기 위해 isnull(), isna() 함수를 사용할 수 있습니다. # true/false로 null인지 아닌지 출력하는 함수 df.isnull() df.isna() #null 값의 개수 확인 df.isnull().sum() df.isna().sum() 결측치가 존재할 때, 우리는 어떤 식으로 결측치가 만들어 지는 것이고? 그 결측치를 어떻게 처리해야되는가?를 고민해야합니다. 전체 데이터셋의 1% 미만..

데이터 전처리는 무엇이고, 왜 해야할까요?

해당 글에서는 1. 데이터 전처리가 무엇인지?2. 데이터 전치리가 왜 필요한지?3. 데이터 수집 과정에서 '방해요소와 데이터 전처리의 효과' 에 대한 내용을 다룹니다.  1. 데이터 전처리는 무엇일까?데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 가공하는 과정입니다. 데이터 분석 단계는 '1) 데이터 습득/선택 2) 데이터 전처리 3) 데이터 마이닝 4) 해석평가'로 이루어지는데, 데이터 전처리 과정은 2번째 단계에 해당합니다. 크게는 데이터 분석, 작제는 데이터 전처리는 주로 AI 모델을 통한 학습 전에 해당 데이터를 학습에 편하게 변형하는 과정에서 많이 사용됩니다.2. 데이터 전처리는 왜 필요할까?데이터 전처리는 데이터 분석 파이프라인을 구성하는데 있어 중요한 단계입니다. ..

노이즈(noise) 기법

오늘은 노이즈 주는 방법을 가져와봤습니다. 노이즈 기법은 데이터를 확장 및 증강할 때 자주 사용합니다. 데이터의 형태에 따라 노이즈 줄 수 있는 방법이 다양한데, 오늘은 텍스트형 데이터 노이즈 주는 방법과 음성 데이터 노이즈 주는 대표적인 방법을 다뤄보고자 합니다. 주로 노이즈 기법의 경우, 음성 데이터와 이미지 데이터에 자주 사용됩니다. 텍스트형 데이터에 노이즈를 경우는 많이 사용하지 않지만, 궁금해서 정리해봤습니다. (음성 데이터에 노이즈 기법만 보고싶을 경우, 스크롤 하셔서 아래부분만 보시면 됩니다) 텍스트 형태 데이터 노이즈 주는 방법 먼저 텍스트형 데이터에 노이즈를 주는 경우에 유의할 점을 말씀드리고 기법을 설명하도록 하겠습니다. 자연어 문장의 경우 생각보다 어순 변화나 단어의 변화에 민감하기 ..