데이터전처리 3

데이터 전처리 - Feature Engineering

NULL 값이 데이터에 포함되어 있어서 코드 에러가 발생한 적 없으신가요?이러면 NULL을 모두 제거해야할까요?? 또는 데이터 형태는 문제가 없는데 학습시에 정확도가 낮거나 아예 학습이 되지 않은 것 같은 경우 없으셨나요??이 경우, 데이터가 학습시키기에 적합하지 않은 상태일 수 있습니다. 데이터를 학습하는 머신러닝/딥러닝의 다양한 학습에서는 데이터를 잘 가공하는 것은 매우 중요한 작업니다.그렇다면 어떻게 가공해야할까요? 데이터를 전처리하는 방법은 다양합니다.오늘은 시도해볼 수 있는 다양한 기법들을 다루어보고자 합니다이 때, 언제 해당 기법을 사용하면 좋을지에 대한 insight를 발견하시길 바랍니다~!!기법설명유용한 곳결측치 처리데이터가 누락된 부분을 평균, 특정값 등으로 채우는 기법데이터 누락으로 인..

데이터에 NULL이 포함되면 어떻게 처리해야할까? (결측치 처리)

데이터셋에서 NULL 값이 있을 경우, 어떻게 해야할까요? 이번에는 데이터셋에 NULL 값이 표함된 경우 어떻게 해결하면 되는지 다룹니다. 데이터 정보가 빈/ 없는 데이터은 NULL로 표시되는데, 이를 " 데이터가 결측치를 포함하고 있다"라고 표현합니다. 먼저, 데이터셋에 NULL값이 포함되어 있는지 확인하기 위해 isnull(), isna() 함수를 사용할 수 있습니다. # true/false로 null인지 아닌지 출력하는 함수 df.isnull() df.isna() #null 값의 개수 확인 df.isnull().sum() df.isna().sum() 결측치가 존재할 때, 우리는 어떤 식으로 결측치가 만들어 지는 것이고? 그 결측치를 어떻게 처리해야되는가?를 고민해야합니다. 전체 데이터셋의 1% 미만..

데이터 전처리는 무엇이고, 왜 해야할까요?

해당 글에서는 1. 데이터 전처리가 무엇인지?2. 데이터 전치리가 왜 필요한지?3. 데이터 수집 과정에서 '방해요소와 데이터 전처리의 효과' 에 대한 내용을 다룹니다.  1. 데이터 전처리는 무엇일까?데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 가공하는 과정입니다. 데이터 분석 단계는 '1) 데이터 습득/선택 2) 데이터 전처리 3) 데이터 마이닝 4) 해석평가'로 이루어지는데, 데이터 전처리 과정은 2번째 단계에 해당합니다. 크게는 데이터 분석, 작제는 데이터 전처리는 주로 AI 모델을 통한 학습 전에 해당 데이터를 학습에 편하게 변형하는 과정에서 많이 사용됩니다.2. 데이터 전처리는 왜 필요할까?데이터 전처리는 데이터 분석 파이프라인을 구성하는데 있어 중요한 단계입니다. ..