머신러닝 3

데이터 전처리 - Feature Engineering

NULL 값이 데이터에 포함되어 있어서 코드 에러가 발생한 적 없으신가요?이러면 NULL을 모두 제거해야할까요?? 또는 데이터 형태는 문제가 없는데 학습시에 정확도가 낮거나 아예 학습이 되지 않은 것 같은 경우 없으셨나요??이 경우, 데이터가 학습시키기에 적합하지 않은 상태일 수 있습니다. 데이터를 학습하는 머신러닝/딥러닝의 다양한 학습에서는 데이터를 잘 가공하는 것은 매우 중요한 작업니다.그렇다면 어떻게 가공해야할까요? 데이터를 전처리하는 방법은 다양합니다.오늘은 시도해볼 수 있는 다양한 기법들을 다루어보고자 합니다이 때, 언제 해당 기법을 사용하면 좋을지에 대한 insight를 발견하시길 바랍니다~!!기법설명유용한 곳결측치 처리데이터가 누락된 부분을 평균, 특정값 등으로 채우는 기법데이터 누락으로 인..

머신러닝 핵심 라이브러리

머신러닝 학습 코드를 구현하고 시각화할때 많이 사용하고 들어본 라이브러리들에는 무엇이 있나요?Numpy, Pandas, Sklearn,Matplotlib, Seaborn에 대해 자주 들어보셨을 것입니다. 참고로, 딥러닝 분야에서는 Tensorflow, Pytorch, Keras를 많이 사용하며, 오늘은 머신러닝을 수행할 때 유용한 라이브러리를 정리하고자합니다.  아래는 머신러닝에서 사용하는 라이브러리입니다.러이브러리설명넘파이=Numpy다차원 배열에 대한 빠른 처리를 지원하는 라이브러리(판다스에 비해 사람 눈에는 다소 읽기 불편하지만 메모리가 덜 들고 계산도 더 빠르다)판다스=Pandas넘파이 기반으로 구현한 라이브러리. 인간 친화적인 자료구조를 제공해 데이터를 넘파이보다 쉽게 읽고 변형이 가능하다사이킷런..

회귀(경사하강법, 학습률, 지역최솟값, 과적합&과소적합)

목차 1. 회귀의 개념 (선형회귀 위주)2. 경사하강법은 무엇인가?3. 학습률은 어떤 영향을 줄까?4. 경사하강법의 문제점와 해결방안 : 지역최소값 문제 5. 과잉적합과 과소 적합1. 회귀의 개념1.1 회귀 개념회귀는 지도학습 방법 중 하나로,주어진 입력(x)-출력(y) 쌍을 학습한 후에 새로운 입력값이 들어왔을 때, 합리적인 출력값을 예측하는 것이다. 예를 들어, "운동을 하루에 5시간 한다면 그 사람의 예측 수명은 어떻게 될까?"와 같은 문제가 이에 해당한다.입력과 출력에 해당하는 '운동 시간 별 수명 길이'에 대한 데이터를 학습한 후, 위의 문제처럼 운동시간(x)가 주어 적을때, 수명(y)를 예측하는 것이다. 일반적으로 데이터들을 2차원 공간에 찍은 후에 이들 데이터들을 가장 잘 설명하는 직선이나 ..