2022. 10. 28. 03:03ㆍML_DL/ML
normalization, standardization,regularization 을 모두 정규화로 번역한 책들을 심심치 않게 볼 수 있다.
그러나 이 세가지는 반드시 구분해야 한다.
Normalization ( 정규화 )
데이터에서 각 feature 마다 scale이 다른 경우가 대부분이다. 예를 들어 height 와 weight만 봐도 둘의 scale 자체가 다르다.
일반적으로 height 가 weight 보다 높은 값을 갖는다. 학습하는 과정에 있어서 scale이 큰 부분이 영향을 많이 준다로 모델이 잘 못 해석하는 일이 발생할 수 있다. 따라서 이 각 feature별 중요도를 맞춰 주는 작업이 필요하다.
어떻게 맞춰줄까?
Min-Max scaling 이 주로 사용된다.
이는 X = (X-X_min / X_max - X_min) 을 통해서 값을 조정해준다.
Standardization ( 표준화 )
Standardization의 목적은 Normalization과 동일하나 하는 방식에 차이가 있다. 이는 feature의 값들을 표준정규분포의 속성을 갖도록 변화시켜준다.
어떻게 맞춰줄까?
Z-score 를 통해서 값을 조정 해준다.
(x - 평균) / 표준편차
그러면 Z-score, Min-Max scaling 둘 중 어느것을 어떻게 적절하게 사용해야 될까 라는 의문이 생길 것이다.
이에 대한 정답은 없지만, 정규화는 이상치에 민감하다. 판매량의 샘플 중 대부분이 0~50개 이고 한 상품이 1000개가 팔린 경우
x - 0 / 1000 => 0~0.0.05 가 된다.
적절하게 두 방식을 사용하면 되나, 보통 표준화를 진행하여 이상치를 제거한 후 정규화를 진행한다고 한다.
표준화를 진행해서 이상치는 어떻게 제거할까?
이는 신뢰구간에 대한 이해가 필요하다. 간단하게 말하면 Z-score 가 +-2*표준편차 범위안에 있다면 이는 신뢰구간 95%를 만족한다.
해당 값들만을 채택하면 이상치가 제거되었다고 판단해도 무방하다.
위 두 방식은 결국 학습속도를 증가시킨다.
왜?
각 특성별로 다른 범위를 갖기 때문에 특성별로 최적화되는 속도가 다르다. 이에 대해서 전체적으로 scale이 비슷하게 되면 각각의 속도에 있어서 비슷하게 되고 결국 이는 최적화 속도가 빨라진다는 것을 의미한다.
Regularization ( 규제화 )
사실 가장 다루고 싶었던 부분은 규제화이다.
일단 무엇을 어떻게 규제한다는 말일까?
여기서 규제라는 것은 범위를 제한한다는 것이다.
그러면 무엇의 범위를 제한할까?
이는 가중치의 범위를 제한한다는 것이다.
왜 가중치의 범위를 제한해야만 할까?
범위를 제한한다는 것은 범위가 너무 커졌거나 너무 작거나 하다는 것인데 여기서는 보통 범위가 너무 크기 때문에 이를 줄이고자 한다.
이는 보통 overfitting 된 모델의 weight 값들을 보면 전에 비해 급격하게 상승한 것을 볼 수있다.
(overfitting 될 수록 어떤 feature에 대한 가중치가 급격하게 증가한다고 했는데 그 원인은 뭘까? 이에 대해서 설명한 글은 꽤 많이 찾아봤지만 볼 수 없었다.)
overfitting 되었다 (bias가 낮고, variance가 크다.) 즉 bias 와 variance가 너무 불균형하기에 이를 조정하여 적절한 모델의 모습을 만들고 싶은 것이다.
규제방법으로는 대표적으로 L1, L2 규제가 있다. L1은 절댓값을 통한 규제이고, L2는 제곱값을 통한 규제이다.
간단하게 장단점만 짚어보고자 한다.
L1은 feature selection이 가능하고 L2는 미분이 가능하다.
즉 L1을 사용한 Lasso 모델은 희소모델에 적합하며, L2의 경우 반대의 경우에서 적절한 사용처가 될 수 있다.
'ML_DL > ML' 카테고리의 다른 글
| ML) PDP and Shaply Value (0) | 2022.08.30 |
|---|---|
| ML) 특성중요도 계산 방법과 Boosting (0) | 2022.08.30 |
| ML) CrossValidation (0) | 2022.08.30 |
| ML) Metrics (0) | 2022.08.29 |
| ML) Logistic Regression (0) | 2022.08.29 |