가설검정, 공분산, 회귀분석

2024. 1. 10. 23:12Statistics

가설검정

- 실제프로젝트시, 귀무가설/대립가설을 세워야 함

 

귀무가설

- 차이가 없다, 효과가 없다 / 기존 통념

 

대립가설

- 차이가 있다, 효과가 있다 / 입증하고자 하는 새로운 사실

 

검정통계량test statistics

- 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준

 

기각역critical region

- 귀무가설이 옳다는 전제하에서 구한 검정통계량의 분포에서 확률이 유의수준 𝛼인 부분 +-1.96~

 

유의수준

- 제1종 오류를 범할 확률의 최대값 𝛼 = 0.05 (통계학에서 허용하는 오차인 5%)

 

유의확률(p-value, 확률값)

- 제1종 오류를 범할 최대 확률 (귀무가설이 맞는데 기각하고 대립가설을 채택할 확률)

- 검정통계량 값을 바탕으로 p-value값을 구하여 귀무가설 기각여부를 결정

p >= 0.05 => 귀무가설 채택

p < 0.05 => 해당 데이터는 신뢰도가 높고 유의미하다 => 귀무가설 기각 (대립가설 채택)

 

1종오류와 2종오류

 제1종 오류 : 귀무가설 𝐻0가 옳은데도 귀무가설을 기각하게되는 오류

- 제2종 오류 : 귀무가설 𝐻0가 옳지 않은데도 귀무가설을 채택하게 되는 오류

- 2종오류를 좀더 크리티컬하게 봄

 

모수검정방법

- T-test : 단일 집단, 집단 간 평균 비교

- 분산분석 : 두 집단 이상의 차이(평균) 분석

- 카이제곱 검정 : 관련성 분석
- 상관관계 분석 : 두 변수의 상관성 분석
- 회귀분석 : 독립변수가 종속변수에 미치는 영향 정도 분석

 

독립/종속변수

  - 독립변수(설명변수): 영향을 주는 변수, 날씨, 요일 

  - 종속변수(반응변수) : 다른 변수의 영향을 받는 변수,  판매량

 

비모수검정

- 관측된 자료 A, B가 특정 분포(정규분포)을 만족하지 않을 때 ex) A 31개, B 29개

- 관측된 자료의 수 (30개 기준)

  - 30개 미만 => 정규분포 확인해야함 (정규성 검정) => 통과하면 t-test

  - 30개 이상 => 정규분포가 아니더라도, 정규분포 인정

t-test

1) One Sample t-test

- 하나의 모집단의 평균을 특정값과 비교

- 과자 30개의 중량 평균을 특정값(100g)과 비교

 

2) Two sample t-test*

- 두 집단의 평균 차이가 있는가? ex. A회사, B회사 평균 급여 차이

- 등분산성, 정규성을 만족해야 함

 

3) 대응표본 t-test*

- 두 집단의 신약 투약 전후 수치 비교 

 

분산분석(ANOVA : Analysis of Variance)

- 세개 이상의 집단 사이의 평균을 비교하는 검정

  (1) A,B그룹 평균 비교

  (2) A,C그룹 평균 비교

  (3) B,C그룹 평균 비교

 

산점도 그래프와 상관계수

- 상관계수가 작아질수록 선형성 약해짐

- 상관계수가 높을수록 종속변수에 영향이 커짐

 

공분산

● 공분산
  ○ 2개의 확률변수의 선형 관계를 나타내는 값
● 공분산의 부호
  ○ - : 음의 상관관계
  ○ 0 : 상관관계 없음
  ○ + : 양의 상관관계

 

● 주의점
  ○ 두 변수가 아무 관계 없는 독립 변수일 때
    ■ 공분산 = 0
  ○ 공분산 = 0
    ■ 두 변수가 독립은 아닐 수 있음

 

공분산과 상관계수 차이

- 상관계수 : 공분산을 표준화한 것

  공분산보다 많이 사용되고, 다른변수와 비교하기 좋음

 

상관분석

- 두 변수 간의 관계를 상관계수를 이용하여 알아보는 분석 방법

- 피어슨 상관 계수(Pearson correlation coefficient) : -1에서 1사이의 값만 가질 수 있음

회귀분석

회귀분석의 정의

● 회귀분석이란?

  ○ 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
  ○ 대표적인 모형이 선형 회귀 모형


● 회귀분석의 장점
  ○ 대부분의 경우 결과를 설명하는 요인이 매우 많음
  ○ 둘 이상의 변수 간의 관계를 보여주는 통계적 방법
  ○ 종속변수에 영향을 미치는 독립변수의 영향력을 판단 가능

- x의 변화량에 따른 y의 변화량을 체크

 

● 주의점
  ○ 인과관계를 설명해주지는 못한다


- 독립변수의 개수가 하나이면 단순선형회귀분석 y=ax+b

- 독립변수의 개수가 두 개 이상이면 다중선형회귀분석 y=ax+bx+c

 

- 최소제곱법 : 주어진 x와 y 데이터에서 오차(=잔차,error)가 가장 적을 것 같은 회귀선을 제시

 

선형회귀분석의 가정 (3개 기억)

- 선형성 : 입력변수와 출력변수의 관계가 선형이다.

  선형성 가정의 위반 ==> 로지스틱 회귀 분석

- 등분산성 : 오차의 분산이 일정한가?

- 정상성(정규성) : 오차의 분포가 정규분포를 따른다

 

회귀분석에서의 검정

F-검정 : 99% 유의미

모든 회귀계수가 통계적으로 유의미하지 않을때, p.value값이 0.05이상

t-test만 신경쓰면 됨

 

결정계수

- 결정계수가 높을수록 좋은 모델이다

 

다중선형회귀분석 모형에서 자유도를 도입한 이유는 표본 샘플링 때문

 

다중공선성(Multicollinearity)

- 독립변수가 20개 이상인 경우 검사해야 함

'Statistics' 카테고리의 다른 글

확률분포표, 확률밀도함수  (0) 2024.01.11
확률변수, 확률분포  (0) 2024.01.10
통계 | 기초 용어  (1) 2024.01.10
신뢰도, 신뢰구간  (0) 2024.01.10
모집단, 표본, 모평균, 표본평균, 모분산, 표본분산  (0) 2024.01.10