DS) EDA/pre-processing

2022. 7. 28. 17:41DS/EDA_Data

누군가 데이터를 우리에게 주고 이를 통해서 분석을 의뢰했다고 해보자.

우리는 데이터를 손에 들고있다. 가장 먼저 해야 할 일은 무엇일까?

 

우리가 요리사라고 해보자. 음식물쓰레기를 주고서는 이거로 정말 맛있는 음식을 만들 수 있을까? 일반적으로 불가능하다.

즉 기본재료가 중요하다는 것이다. 

 

DS들에게 기본재료는 데이터이다. 이 데이터를 손질하고 이쁘게 다듬어서 사용해야 좋은 결과물을 낼 수 있다는 의미이다.

*손질하고 이쁘게 다듬는다는 표현은 당연히 은유적인 표현일 뿐이고 실제로 어떤식으로 처리하는지는 천천히 살펴보자.

 

이렇게 raw data -> processed data 로 만드는 작업을 pre-processing (전처리)라고 한다.

그렇다면 어디서 EDA는 뭘까? 항상 초기에는 EDA와 전처리를 진행해야 한다는 것은 알고 있다.

 

사실 EDA란

Exploratory Data Analysis 의 줄임말로 탐색적 데이터 분석이다.

기술적으로 데이터를 가공하는 것이 아닌 탐색하면서, 데이터와 친해지는 단계이다.

*친해진다 라는 것은 해당 데이터에 이상한 부분은 없는지 어떤식으로 구성되어있는지 등을 알아보는 것이다.

 

그럼 실제로 EDA를 어떤 식으로 진행하는지 보자. EDA란 본인이 해결하고자 하는 문제에 적합하게 탐색하는 것이지 가이드라인을 따라가는 것이 정답은 아니다.

 

데이터가 categorical / numerical의 형태인지에 따라서도 이는 달라져야 한다. 분석하는 방법에 있어서는 시각적인 graph 자료를 이용하거나 통계학적으로 유의미한 결과를 보기도 한다.

 

먼저 여러 Plot에 대해서 알아보자. 

 

1) QQ plot

다음이 qq plot이라 불리는 그래프인데, 빨간색 선이 이론상이 분포이며(여기서는 정규분포이고, 이는 다르게 설정이 가능하다.) 파란 점들의 분포가 실제 데이터의 분포이다. 이를 통해서 이론상 분포와 실 데이터의 분포를 비교가 가능하다.

다만 해당 그래프는 샘플 갯수에 어느 정도 민감하기 때문에 최소 21개 이상의 데이터를 이용하는 것이 좋다.

 

2) Heatmap

다음과 같이 특징끼리의 상관계수를 표현해주는 Heatmap이라는 시각적인 자료도 사용한다.

 

3) Boxplot

4분위수 범위를 기반으로 통계적으로 요약적 수치 내용을 보여주고, 현재 보이지는 않지만 ** | -- ㅁ--|  **의 형태로 나타날 때 * 를 이상치로 판단하기도 한다.

 

4분위 수 범위는 Q3~Q1 까지인데 각각의 의미는 다음과 같다.

Q1 : 전체 데이터 중 하위 25% 의 값

Q3 : 전체 데이터 중 상위 25% 의 값

 

그림에 대한 세부내용은 다음과 같다.

 

4) 산점도 (Scatter Plot)

numerical 데이터 끼리의 관계를 보여주는 그림이다.

위 그래프는 어떠한 유의미한 관계를 보이는 것 처럼 보이지는 않는다.

 

Data Preprocessing (전처리)

다음은 데이터가 어떤 식으로 가공할 수 있는지 한 번 알아보자.

 

 

데이터에 입력이 적합하게 되어있는지 확인하고 수정하는 Data cleaning 그리고 여러 파일에 있는 데이터들을 분석에 용이하게 

합치는 Data integration , 각 특징별 scale이 다른 경우에 대해서 transformation과 같은 기술을 적용한다.

 

나중에 다루겠지만, 차원이 늘어남에 따라서 학습에 용이하지 않게 되는 현상이 발생하는데 이를 위해서 차원 축소등을 이용한다.


Ref

코드스테이츠

https://bioinformaticsandme.tistory.com/245

 

[R] 상자그림(Box plot)

[R] 상자그림(Box plot) Start BioinformaticsAndMe 1. 상자그림(Box plot) : 상자그림은 특정한 수치 값을 기반으로 그려진, 자료 특성이 요약된 그래프 : 사분위수범위(Inter-Quartile Range;IQR) = Q1~Q3..

bioinformaticsandme.tistory.com

 

'DS > EDA_Data' 카테고리의 다른 글

DS) Data Manipulation  (0) 2022.07.29
DS) Feature Engineering/dtype/replace/apply  (0) 2022.07.28