ML_DL(18)
-
Normalization, Standardization, Regularization
normalization, standardization,regularization 을 모두 정규화로 번역한 책들을 심심치 않게 볼 수 있다. 그러나 이 세가지는 반드시 구분해야 한다. Normalization ( 정규화 ) 데이터에서 각 feature 마다 scale이 다른 경우가 대부분이다. 예를 들어 height 와 weight만 봐도 둘의 scale 자체가 다르다. 일반적으로 height 가 weight 보다 높은 값을 갖는다. 학습하는 과정에 있어서 scale이 큰 부분이 영향을 많이 준다로 모델이 잘 못 해석하는 일이 발생할 수 있다. 따라서 이 각 feature별 중요도를 맞춰 주는 작업이 필요하다. 어떻게 맞춰줄까? Min-Max scaling 이 주로 사용된다. 이는 X = (X-X_min..
2022.10.28 -
AI
확률과 통계 확률과 통계가 무엇이 다른가? A) 확률이란 수학적인 계산을 통해서 도출되는 값이며, 통계란 충분한 횟수의 관측이 이루어진 상황을 수치화 한것이다. 확률은 알려진 모델이 주어져있고, Data를 예측하는 것이라 하면, 통계는 Data 예측을 통해서 모델을 예측하는 것이라고 볼 수 있다. Central Limit Theoerm 은 무엇인지 , 왜 중요한 이론인가? A) 평균이 µ이고, 표준편차가 𝝈인 임의의 분포를 이룰 때, 충분히 큰 크기(n)의 표본을 추출하면 각 표본들의 평균의 분포는 평균이 µ이고, 표준편차가 (𝝈/√n)인 Bell curve = 정규분포에 근접한다는 이론. 중요한 부분은 모집단의 분포가 어떤 형태를 가지고 있든, 표본의 크기가 충분히 크다면 표본평균들의 분포가 모집단..
2022.10.26 -
Deep Learning -> CNN 복습
딥 러닝이란? 비정형데이터를 처리하는데 특화된 머신러닝 알고리즘의 한 종류이다. 이는 최소 2개 이상의 hidden layer를 가지고 구성되어 있다. 케라스 그리고 텐서플로우 케라스 : 신경망을 만들기 위한 고수준 파이썬 라이브러리 텐서플로우 : 신경망을 훈련하기 위해 필요한 저수준 배열 연산을 수행하는 역할을 하는 백엔드 라이브러리 Tensor? 행렬로 표현할 수 있는 2차원 배열을 높은 차원으로 확장시킨 다차원배열의 형태 모델생성 흐름 이미지 적재 -> 모델 생성 -> 모델컴파일(옵티마이저, 손실함수 정의) -> 모델훈련 -> 모델평가 합성곱층이 등장한 배경 Flatten -> Dense 로만 이루어진 모델을 그다지 높은 성능을 낼 수 없다. 이유는 다음과 같다. 입력 이미지의 공간 구조를 다룰 수..
2022.09.13 -
ML) PDP and Shaply Value 2022.08.30
-
ML) 특성중요도 계산 방법과 Boosting
: Training Error 가 큰 관측치에 대해서 가중치(선택확률)를 높인다.
2022.08.30 -
ML) CrossValidation
k-Fold 교차검증
2022.08.30