데이터 분석 기법 활용

2023. 3. 17. 07:25

■ 상관 분석

: 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법

선형적 : 직선모양

비선형적 : 직선모양 X

※ 상관 관계

: 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계

→ 두 변수가 선형 관계 or 비선형 관계에 있는지 파악

※ 상관 계수

: 두 변수 사이의 상관성을 나타내며 일반적으로 피어슨 상관계수를 사용

: 즉, 두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)

→ 일반적으로 상관계수가 0.7 이상이면 강한 양의 상관관계

→ 상관계수가 -0.7 이하면 강함 음의 상관관계를 갖는다.

→ 상관계수 = 0 이라면 무상관

→ 상관계수가 -1 or +1에 가까울 수록 두 변수 간의 관계가 강하다는 뜻이지만, 두 변수 간의 인과관계(어느 변수가 원인이고 결과인지)는 알 수 없다.

→ 즉, 상관관계가 높다고해서 서로간의 인과관계를 뜻하는 것은 아니다.

① 상관계수 표를 만들어서 분석하기

파일 탭 → 옵션 → 추가기능 → 분석도구 → 이동 → 분석도구 체크

데이터 탭에 데이터 분석 옵션이 생긴다. 이를 이용하여 상관분석이 가능하다.

② CORREL(범위1, 범위2) 함수 사용하여 상관계수를 구할 수 있다

→ 상관계수 표에 조건부서식을 적용하여 -1 ~ +1 사이의 값에 바탕색으로 강조하는 것도 좋은 방법이다.

■ 분산 분석

: 두 개 이상 다수의 집단을 비교하여 평균의 차이가 있는지를 검정한다.

ex)

A 환자군 → 약 처방 O → 간 수치 평균 (C1)

B 환자군 → 약 처방 X → 간 수치 평균 (C2)

C1과 C2는 차이가 있는가?

cf) 귀무 가설 : 일반적으로 인정되는 사실

cf) 대립 가설 : 우리가 주장하는 가설 (귀무 가설에 대립하는 명제)

※ 분산 분석의 방법

: 집단의 개수에 따라 분산 분석의 방법이 다르다

① 집단이 2개일 때 → T-test

② 집단이 3개 이상일 때 → ANOVA (ANalysis Of VAriance)

● F-검정

: 두 집단의 분산이 같은지 여부를 검정 (데이터 분석 옵션을 사용)

등분산성 : 분산이 같음

이분산성 : 분산이 다름

→ P-value가 0.05보다 크면 두 집단의 분산은 같다. → t-검정 (등분산 가정 두 집단)

→ P-value가 0.05보다 작으면 두 집단의 분산은 다르다. → t-검정 (이분산 가정 두 집단)

★ F-검정을 통해 P-value의 수치를 보고 어떠한 t-검정을 할 것인지 판단한다.

● T-test

: 두 집단의 평균이 유의미한 차이가 있는지 검정

→ P-value가 0.05보다 크면 두 집단의 평균은 같다.

→ P-value가 0.05보다 작으면 두 집단의 평균은 다르다.

→ 집단1은 그대로 두고 집단2에 어떤 처리를 하거나 영향을 주는 사건이 발생했을 때, T-test의 P값이 0.05보다 작으면, 집단2에 시행한 처리나 발생한 사건이 두 집단의 평균 차이에 유의미한 영향을 미쳤다고 해석한다.

■ 회귀 분석

: 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

: 둘 또는 그 이상의 변수 사이의 관계, 특히 변수 사이의 인과관계를분석하는 추측 통계의 한 분야

Y = aX + b

Y : 종속 변수 (알고 싶은 값)

X : 독립 변수 (알고 있는 값)

※ 회귀 분석의 목적

① 두 변수 간의 관계 파악

② 미래 값 예측

※ 회귀 분석의 종류

독립 변수(X)의 개수에 따라 단순/다중 회귀 분석으로 구분

① 단순 회귀 분석

→ 독립 변수(X)가 한 개일 때 사용

→ 독립 변수(X)가 변할 때, 종속 변수(Y)값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 분석하는 방법

*최소 제곱법(LSE, Least Square Estimation)

→ 전체적으로 오차가 작은 직선을 찾는다

= 빨간 점선의 길이의 합이 가장 작은 직선

= 단, 오차는 +,-가 있으므로 오차를 제곱한 합이 가장 작은 직선을 선택

※ 데이터 분석 옵션을 사용한 이미지

*결정 계수는 0~1 값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명한다

ex) 결정 계수가 0.4라면 이 회귀 모형이 실제 데이터 40%를 설명할 수 있다는 뜻

*유의한 F값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능하다

ex) E값은 2.72정도로 F값에 0.05 미만인지 대략적으로 계산하여 사용하자

*Y = aX + b 에서 Y절편은 b값, a는 기울기를 뜻한다.

② 다중 회귀 분석

→ 독립 변수(X)가 여러 개일 때

→ 여러 개의 독립 변수(X1,X2,X3 ...)가 종속 변수(Y)값에 미치는 영향 파악

※ 데이터 분석 옵션을 사용한 이미지

*다중 회귀분석에서는 조정된 결정계수를 확인한다(여러 개의 독립 변수간의 오차를 컴퓨터가 조정한 값)

*결정 계수는 0~1 값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명한다

ex) 결정 계수가 0.96라면 이 회귀 모형이 실제 데이터 96%를 설명할 수 있다는 뜻

*유의한 F값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능하다

ex) E값은 2.72정도로 F값에 0.05 미만인지 대략적으로 계산하여 사용하자

*P-값이 0.05 이하인 변수들이 종속 변수(매출)를 가장잘 설명하는 변수들이다

cf) 직원 수는 0.05보다 크지만, 거의 0.05에 가까우므로 직원 수가 더 많아지면 0.05 미만이 될 가능성이 있다

■ 시계열 분석

※ 시계열 데이터

: 일정 기간에 대해 시간의 함수로 표현되는 데이터
ex) 주가, 날씨(기온, 강수확률, 바람) 등

※ 시계열 데이터의 분석의 목표

: 과거 시계열 데이터 특성 파악 및 미래 데이터 예측 업무

※ 시계열 분석 방법의 종류

cf) 현실에서 나타나는 데이터들은 모두 비정상 데이터

＊그런데 왜 정상 시계열 데이터 분석을 해야하는가?

: 비정상 시계열 데이터는 굉장히 분석하기 어렵다. 이 때문에 비정상 시계열 데이터 분석을 여러가지 방법을 써서 억지로 불규칙을 유발하는 요소들을 제외하고 정상 데이터 시계열 데이터로 만들어서 분석을 진행하는데, 이는 유의미한 결과를 얻을 수 있다.
: 엑셀에서 작업하기 조금 어렵기 때문에 우린 지수 평활법을 사용해 볼 것이다.

(다른 분석 방법은 R 또는 Python을 통해 구체적으로 시도해보자)

※ 시계열 분석 방법의 맹점

→ 아무리 고도화된 시계열 분석 방법을 사용하더라도 예측치는 항상 정확하지 않다!
cf) 지금 현존하는 최고의 시계열 데이터 분석을 사용하더라도 다음날 주가가 얼마로 오를지, 내릴지 맞추는 확률도 1/2도 안된다고 한다. 그만큼 주가를 형성하는 요소들이 많기 때문에 정확한 예측치를 낼 수가 없다. 절대적으로 맹신하면 안된다.

*시계열 데이터 분석으로 얻은 예측치도 조금 더 과학적으로 계산한 추정치일 뿐
→ 과학적인 방법으로 얻은 추정치에 실무자의 인사이트 반영이 중요하다!

● 지수 평활법

: 현재의 실제 값과 현재의 예측 값을 합산하여 미래의 예측 값을 구하는 방법
: 불규칙한 데이터들을 평평하게(정상 시계열 데이터화로) 만들어 분석하는 방법

※ 단순 지수 평활법을 활용한 예측치 계산 방법

미래의 예측 값 = 과거의 실제 값 * α + 과거의 예측값 * (1-α)

미래의 예측 값 = 과거의 예측 값 + α(과거의 실제 값 - 과거의 예측 값)

α = 실제값을 반영할 가중치(0~1 사이의 값)

● FORECAST.ETS 함수
: 지수 평활법과 ETS방법을 통해 특정 시점의 미래 값을 예측

ETS(Error / Trend / Seasonality)
: 오차, 추세, 계절성을 반영해 시계열 데이터 분석

=FORECAST.ETS(예측할 날짜, 알고있는 실제 값들, 과거의 날짜들)

cf) 예전 버전의 FORECAST함수보다 최근 데이터가 더 가치 있다고 판단하여 반영하기 때문에 FORECAST함수를 사용했을 때와 FORECAST.ETS함수를 사용하여 나온 결과값이 다를 수 있다. (FORECAST.ETS함수가 더 정확하다)

→ FORCAST함수를 이용하여 원래의 매출값과 나누어 선형비율을 표현하였다.

→ 이를 바탕으로 2033년의 매출을 예측하였고, FORCAST.ETS함수와 비교하여 꺾은 선 그래프로 시각화를 진행

★ 이러한 분석으로 대략적인 매출을 예측하고, 인사이트를 도출하여 매출이 낮은 구간에 어떠한 이벤트를 진행할지 생각해 볼 수 있을 것이다.

저작자표시 비영리 변경금지

'Excel' 카테고리의 다른 글

데이터 시각화 (1)	2023.03.21
데이터 전처리 (0)	2023.03.12
엑셀을 이용한 탐색적 데이터 분석(EDA) (0)	2023.03.08
엑셀 기초 (0)	2023.03.08
엑셀로 데이터 분석을 하는 이유? (0)	2023.03.08

Attitude of learning