2024. 1. 10. 13:05ㆍStatistics
파생변수가 분석프로젝트의 핵심!!
- 지수 개발
- 프로젝트에 맞는 방법론을 찾아야 => 회귀분석, 차이검정, 상관분석
- ppt가 얼마나 논리적으로 구성되어 있는가
데이터 기초분석
1) 결측값 처리: 옵션 다양
- 삭제, 추가, 평균 대입.. => 사람이 결정
2) 이상치 처리
- 절단, 조정
통계분석
- 샘플을 활용해서 전체 숫자를 "추측"
표본추출방법
- 층화추출법* : 가장 많이 사용, 객관성 담보
각집단의 비율에 근거해서 샘플링 (예: 한국 평균키 추측할 때 일반인 50%, 배구선수 50%에서 무작위 추출)
자료의 측정 방법
- 명목척도 : 서열을 매길수 없는 것 ex. 성별, 시도, 혈액형
- 순서척도(서열척도) : 등급
- 구간척도 : 설문조사 (매우 안좋음, 안좋음, 보통, 좋음 ~)
- 비율척도* : 키, 몸무게 => 차이검정, 회귀분석 (실무의 7~80%)
구분
- 기술통계 : 평균, 표준편차, 중위값, 최빈값, 그래프
- 통계적 추론(추측) : 모수추정, 가설검정, 예측
확률과 개념
- 독립사건 : 통계의 기본적 가정
- 시도 1,2 (데이터에서 행1,2) 가 서로 영향을 주지 않는다
확률분포
- 이산확률분포 : 정수 데이터, 막대 그래프
- 연속확률분포 : 실수 데이터, 곡선 그래프
- 중요개념 먼저 공부하고 그때그때 데이터에 맞는 분포 알고리즘을 공부하는 방식
기대값
- 평균
첨도와 왜도
- 첨도(kurtosis) : 확률분포의 뾰족한 정도를 나타내는 척도
- 왜도(skewness) : 확률분포의 비대칭 정도를 나타내는 척도, 정규분포 유무를 판단하는 기준점 (-3~3)
통계에서 정규분포가 중요한 이유**
모수통계 알고리즘의 핵심 가정 : 데이터는 정규분포를 이룬다!!
연속확률분포의 종류
- 정규분포, t-분포 : 차이검정에 사용
- t분포 : 회귀분석에 사용
- F분포 : 차이검정, 분산분석, 회귀분석에 활용
추정
- 점추정 : 모수가 특정값일 것이라고 추정하는 것
- 구간추정* : 모수가 특정 구간일 것이라고 추정하는 것
'Statistics' 카테고리의 다른 글
확률변수, 확률분포 (0) | 2024.01.10 |
---|---|
가설검정, 공분산, 회귀분석 (1) | 2024.01.10 |
신뢰도, 신뢰구간 (0) | 2024.01.10 |
모집단, 표본, 모평균, 표본평균, 모분산, 표본분산 (0) | 2024.01.10 |
정규분포, 표준정규분포, 표준화 (0) | 2024.01.10 |