2024/03 10

회귀(경사하강법, 학습률, 지역최솟값, 과적합&과소적합)

목차 1. 회귀의 개념 (선형회귀 위주)2. 경사하강법은 무엇인가?3. 학습률은 어떤 영향을 줄까?4. 경사하강법의 문제점와 해결방안 : 지역최소값 문제 5. 과잉적합과 과소 적합1. 회귀의 개념1.1 회귀 개념회귀는 지도학습 방법 중 하나로,주어진 입력(x)-출력(y) 쌍을 학습한 후에 새로운 입력값이 들어왔을 때, 합리적인 출력값을 예측하는 것이다. 예를 들어, "운동을 하루에 5시간 한다면 그 사람의 예측 수명은 어떻게 될까?"와 같은 문제가 이에 해당한다.입력과 출력에 해당하는 '운동 시간 별 수명 길이'에 대한 데이터를 학습한 후, 위의 문제처럼 운동시간(x)가 주어 적을때, 수명(y)를 예측하는 것이다. 일반적으로 데이터들을 2차원 공간에 찍은 후에 이들 데이터들을 가장 잘 설명하는 직선이나 ..

박스 플롯(IQR 사분위수): 이상치 찾기

해당 포스팅은 1. 박스 플롯(IQR 사분위수) 설명 2. Python 코드로 이상치 살펴보기 다음과 같은 순으로 정리해보고자 합니다. 1. 박스플롯(IQR 사분위수) 설명 '박스 플롯'은 '상자 수염 그림'(Box-and-Whisker Plot) '상자 그림' 등 다양한 이름으로 불린다. 박스 플롯(box plot)은 ①데이터의 대략적인 분포와 ②개별적인이상치들을 동시에 보여줄 수 있으며, 서로 다른 데이터 뭉치를 쉽게 비교할 수 있도록 도와주는 시각화 기법으로 가장 널리 쓰이는 시각화 형태 중 하나이다. 박스 플롯을 IQR 사분위수라고도 하는데, 박스 플롯의 상자는 아래 그림과 같이, 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)를 드러낸다. 각 분위 수는 전체 데이터를 100%로 보..

머신러닝 알고리즘의 성능평가: 혼동 행렬 (TP|FP|FN|TN)

해당 포스트에서는 머신러닝 알고리즘의 성능평가를 하는 방식 중 하나인혼동행렬을 통한 정밀도 및 재현율 구하는 방식을 다뤄보고자 합니다. [목차]1. 정확도와 모순된 결과2. 정밀도와 재현율 구하기    - 혼동 행렬1. 정확도모델의 성능을 표현하기 위한 가장 흔한 방법은 정확도를 나타내는 것입니다. 정확도는 다음과 같이 표현합니다.▶ 정확도(accuarcy) = 올바르게 분류한 샘플 수 / 전체 샘플 수 예를 들어, 전체 샘플 100개 중 80개를 맞췄다면 정확도는 80입니다. 당연히 맞춘 개수, 즉 정확도가 높은 것이 성능이 좋다고 말할 수 있습니다. 하지만,  biased(편향된) 환경에서는 정확도는 높지만 결과가 긍정적으로 나오는 이상한 결과가 발생할 수 있습니다.  우리는 예측할 때  "~가 맞다..

[논문리뷰] Segment Any Anomaly without Training viaHybrid Prompt Regularization

Cao, Yunkang, et al. "Segment any anomaly without training via hybrid prompt regularization." arXiv preprint arXiv:2305.10724 (2023). [2305.10724] Segment Any Anomaly without Training via Hybrid Prompt Regularization (arxiv.org) Segment Any Anomaly without Training via Hybrid Prompt Regularization We present a novel framework, i.e., Segment Any Anomaly + (SAA+), for zero-shot anomaly segmentatio..

논문 리뷰 2024.03.19

데이터에 NULL이 포함되면 어떻게 처리해야할까? (결측치 처리)

데이터셋에서 NULL 값이 있을 경우, 어떻게 해야할까요? 이번에는 데이터셋에 NULL 값이 표함된 경우 어떻게 해결하면 되는지 다룹니다. 데이터 정보가 빈/ 없는 데이터은 NULL로 표시되는데, 이를 " 데이터가 결측치를 포함하고 있다"라고 표현합니다. 먼저, 데이터셋에 NULL값이 포함되어 있는지 확인하기 위해 isnull(), isna() 함수를 사용할 수 있습니다. # true/false로 null인지 아닌지 출력하는 함수 df.isnull() df.isna() #null 값의 개수 확인 df.isnull().sum() df.isna().sum() 결측치가 존재할 때, 우리는 어떤 식으로 결측치가 만들어 지는 것이고? 그 결측치를 어떻게 처리해야되는가?를 고민해야합니다. 전체 데이터셋의 1% 미만..

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision

Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021. Learning Transferable Visual Models From Natural Language Supervision (mlr.press) Learning Transferable Visual Models From Natural Language Supervision State-of-the-art computer vision systems are trained to predict a fixed set of predetermined ..

논문 리뷰 2024.03.15

데이터 전처리는 무엇이고, 왜 해야할까요?

해당 글에서는 1. 데이터 전처리가 무엇인지?2. 데이터 전치리가 왜 필요한지?3. 데이터 수집 과정에서 '방해요소와 데이터 전처리의 효과' 에 대한 내용을 다룹니다.  1. 데이터 전처리는 무엇일까?데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 가공하는 과정입니다. 데이터 분석 단계는 '1) 데이터 습득/선택 2) 데이터 전처리 3) 데이터 마이닝 4) 해석평가'로 이루어지는데, 데이터 전처리 과정은 2번째 단계에 해당합니다. 크게는 데이터 분석, 작제는 데이터 전처리는 주로 AI 모델을 통한 학습 전에 해당 데이터를 학습에 편하게 변형하는 과정에서 많이 사용됩니다.2. 데이터 전처리는 왜 필요할까?데이터 전처리는 데이터 분석 파이프라인을 구성하는데 있어 중요한 단계입니다. ..

[논문 리뷰] IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing

Xie, Guoyang, et al. "Im-iad: Industrial image anomaly detection benchmark in manufacturing." IEEE Transactions on Cybernetics (2024). https://paperswithcode.com/paper/im-iad-industrial-image-anomaly-detection Papers with Code - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing Implemented in 2 code libraries. paperswithcode.com Abstract Image anomaly detection (IAD) is an em..

논문 리뷰 2024.03.06