2024. 1. 10. 23:12ㆍStatistics
가설검정
- 실제프로젝트시, 귀무가설/대립가설을 세워야 함
귀무가설
- 차이가 없다, 효과가 없다 / 기존 통념
대립가설
- 차이가 있다, 효과가 있다 / 입증하고자 하는 새로운 사실
검정통계량test statistics
- 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
기각역critical region
- 귀무가설이 옳다는 전제하에서 구한 검정통계량의 분포에서 확률이 유의수준 𝛼인 부분 +-1.96~
유의수준
- 제1종 오류를 범할 확률의 최대값 𝛼 = 0.05 (통계학에서 허용하는 오차인 5%)
유의확률(p-value, 확률값)
- 제1종 오류를 범할 최대 확률 (귀무가설이 맞는데 기각하고 대립가설을 채택할 확률)
- 검정통계량 값을 바탕으로 p-value값을 구하여 귀무가설 기각여부를 결정
p >= 0.05 => 귀무가설 채택
p < 0.05 => 해당 데이터는 신뢰도가 높고 유의미하다 => 귀무가설 기각 (대립가설 채택)
1종오류와 2종오류
- 제1종 오류 : 귀무가설 𝐻0가 옳은데도 귀무가설을 기각하게되는 오류
- 제2종 오류 : 귀무가설 𝐻0가 옳지 않은데도 귀무가설을 채택하게 되는 오류
- 2종오류를 좀더 크리티컬하게 봄
모수검정방법
- T-test : 단일 집단, 집단 간 평균 비교
- 분산분석 : 두 집단 이상의 차이(평균) 분석
- 카이제곱 검정 : 관련성 분석
- 상관관계 분석 : 두 변수의 상관성 분석
- 회귀분석 : 독립변수가 종속변수에 미치는 영향 정도 분석
독립/종속변수
- 독립변수(설명변수): 영향을 주는 변수, 날씨, 요일
- 종속변수(반응변수) : 다른 변수의 영향을 받는 변수, 판매량
비모수검정
- 관측된 자료 A, B가 특정 분포(정규분포)을 만족하지 않을 때 ex) A 31개, B 29개
- 관측된 자료의 수 (30개 기준)
- 30개 미만 => 정규분포 확인해야함 (정규성 검정) => 통과하면 t-test
- 30개 이상 => 정규분포가 아니더라도, 정규분포 인정
t-test
1) One Sample t-test
- 하나의 모집단의 평균을 특정값과 비교
- 과자 30개의 중량 평균을 특정값(100g)과 비교
2) Two sample t-test*
- 두 집단의 평균 차이가 있는가? ex. A회사, B회사 평균 급여 차이
- 등분산성, 정규성을 만족해야 함
3) 대응표본 t-test*
- 두 집단의 신약 투약 전후 수치 비교
분산분석(ANOVA : Analysis of Variance)
- 세개 이상의 집단 사이의 평균을 비교하는 검정
(1) A,B그룹 평균 비교
(2) A,C그룹 평균 비교
(3) B,C그룹 평균 비교
산점도 그래프와 상관계수
- 상관계수가 작아질수록 선형성 약해짐
- 상관계수가 높을수록 종속변수에 영향이 커짐
공분산
● 공분산
○ 2개의 확률변수의 선형 관계를 나타내는 값
● 공분산의 부호
○ - : 음의 상관관계
○ 0 : 상관관계 없음
○ + : 양의 상관관계
● 주의점
○ 두 변수가 아무 관계 없는 독립 변수일 때
■ 공분산 = 0
○ 공분산 = 0
■ 두 변수가 독립은 아닐 수 있음
공분산과 상관계수 차이
- 상관계수 : 공분산을 표준화한 것
공분산보다 많이 사용되고, 다른변수와 비교하기 좋음
상관분석
- 두 변수 간의 관계를 상관계수를 이용하여 알아보는 분석 방법
- 피어슨 상관 계수(Pearson correlation coefficient) : -1에서 1사이의 값만 가질 수 있음
회귀분석
회귀분석의 정의
● 회귀분석이란?
○ 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
○ 대표적인 모형이 선형 회귀 모형
● 회귀분석의 장점
○ 대부분의 경우 결과를 설명하는 요인이 매우 많음
○ 둘 이상의 변수 간의 관계를 보여주는 통계적 방법
○ 종속변수에 영향을 미치는 독립변수의 영향력을 판단 가능
- x의 변화량에 따른 y의 변화량을 체크
● 주의점
○ 인과관계를 설명해주지는 못한다
- 독립변수의 개수가 하나이면 단순선형회귀분석 y=ax+b
- 독립변수의 개수가 두 개 이상이면 다중선형회귀분석 y=ax+bx+c
- 최소제곱법 : 주어진 x와 y 데이터에서 오차(=잔차,error)가 가장 적을 것 같은 회귀선을 제시
선형회귀분석의 가정 (3개 기억)
- 선형성 : 입력변수와 출력변수의 관계가 선형이다.
선형성 가정의 위반 ==> 로지스틱 회귀 분석
- 등분산성 : 오차의 분산이 일정한가?
- 정상성(정규성) : 오차의 분포가 정규분포를 따른다
회귀분석에서의 검정
F-검정 : 99% 유의미
모든 회귀계수가 통계적으로 유의미하지 않을때, p.value값이 0.05이상
t-test만 신경쓰면 됨
결정계수
- 결정계수가 높을수록 좋은 모델이다
다중선형회귀분석 모형에서 자유도를 도입한 이유는 표본 샘플링 때문
다중공선성(Multicollinearity)
- 독립변수가 20개 이상인 경우 검사해야 함
'Statistics' 카테고리의 다른 글
확률분포표, 확률밀도함수 (0) | 2024.01.11 |
---|---|
확률변수, 확률분포 (0) | 2024.01.10 |
통계 | 기초 용어 (1) | 2024.01.10 |
신뢰도, 신뢰구간 (0) | 2024.01.10 |
모집단, 표본, 모평균, 표본평균, 모분산, 표본분산 (0) | 2024.01.10 |