통계 | 기초 용어

2024. 1. 10. 13:05Statistics

파생변수가 분석프로젝트의 핵심!!

  - 지수 개발

  - 프로젝트에 맞는 방법론을 찾아야 => 회귀분석, 차이검정, 상관분석

  - ppt가 얼마나 논리적으로 구성되어 있는가

 

데이터 기초분석

1) 결측값 처리: 옵션 다양

- 삭제, 추가, 평균 대입.. => 사람이 결정

 

2) 이상치 처리

- 절단, 조정

 

통계분석

- 샘플을 활용해서 전체 숫자를 "추측"

 

표본추출방법

- 층화추출법* : 가장 많이 사용, 객관성 담보

  각집단의 비율에 근거해서 샘플링 (예: 한국 평균키 추측할 때 일반인 50%, 배구선수 50%에서 무작위 추출)

 

자료의 측정 방법

- 명목척도 : 서열을 매길수 없는 것 ex. 성별, 시도, 혈액형

- 순서척도(서열척도) : 등급

- 구간척도 : 설문조사 (매우 안좋음, 안좋음, 보통, 좋음 ~)

- 비율척도* : 키, 몸무게 => 차이검정, 회귀분석 (실무의 7~80%)

 

구분

- 기술통계 : 평균, 표준편차, 중위값, 최빈값, 그래프

- 통계적 추론(추측) : 모수추정, 가설검정, 예측

 

확률과 개념

- 독립사건 : 통계의 기본적 가정

 - 시도 1,2 (데이터에서 행1,2) 가 서로 영향을 주지 않는다

 

확률분포

- 이산확률분포 : 정수 데이터, 막대 그래프

- 연속확률분포 : 실수 데이터, 곡선 그래프

- 중요개념 먼저 공부하고 그때그때 데이터에 맞는 분포 알고리즘을 공부하는 방식

 

기대값

- 평균

 

첨도와 왜도

- 첨도(kurtosis) : 확률분포의 뾰족한 정도를 나타내는 척도

- 왜도(skewness) : 확률분포의 비대칭 정도를 나타내는 척도, 정규분포 유무를 판단하는 기준점 (-3~3)

 

통계에서 정규분포가 중요한 이유**

모수통계 알고리즘의 핵심 가정 : 데이터는 정규분포를 이룬다!!

 

연속확률분포의 종류

- 정규분포, t-분포 : 차이검정에 사용

- t분포 : 회귀분석에 사용 

- F분포 : 차이검정, 분산분석, 회귀분석에 활용

 

추정

- 점추정 : 모수가 특정값일 것이라고 추정하는 것

- 구간추정* : 모수가 특정 구간일 것이라고 추정하는 것