Learning/Time Series Analytics
01. 분석 단계별 의사결정을 위한 수학/통계적 언어
눈떠보니 월요일
2023. 1. 18. 14:05
목차
1.1 데이터 관점에 따른 분류
- 시계열분석 Target 데이터: 최소 시계열/시계열 횡단면/패널 데이터
- 시계열분석 시간축: 초(S)/분(M)/시(H)/일(D)/월(M)/년(Y) 등 (Tick 단위 이하 및 빛의 속도 이상 제외)
- Tick 단위 : High frequency 데이터(ex. 초단위)
- 횡단면 데이터 : 특정한 시점에 대한 데이터 -> 시계열 분석 불가능
- 시계열 횡단면 데이터 : 어떤 컬럼이 시간적으로 빈칸이 생긴 데이터(꽉차있는 데이터만 쓰거나 빈칸을 집어 넣기)
- 패널 데이터 : 전처리 이후의 빈값이 없는 데이터
1.2 데이터 변수구분 및 개념정리
- 원데이터(Raw Data): 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 데이터 (ex. Log, Table)
- 변수(Variable): 정보가 수집되는 특정한 개체나 대상 (보통 열(Column) 값들을 의미)
- 질적변수 vs 양적변수: 데이터의 특성에 따른 분류
- 질적변수(Qualitative Variable): 변수의 값이 비수치적 특정 카테고리에 포함 시키도록 하는 변수 (ex.색상, 성별, 종교)
- 명목변수(Nominal Variable): 변수의 값이 특정한 범주(Category)에 들어가지만 해당 범주간 순위는 존재하지 않는 것 (ex.혈액형)
- 순위변수(Ordinal Variable): 변수의 값이 특정 범주에 들어가면서 변수의 값이 순위를 가지는 경우 (ex.성적)
- 양적변수(Quantitative Variable): 변수의 값을 숫자로 나타 낼 수 있는 변수 (ex. 키, 몸무게, 소득)
- 이산변수(Discrete Variable): 하나하나 셀 수 있는 변수 (ex.정수)
- 연속변수(Continuous Variable): 이산변수와 다르게 변수의 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우 (ex.실수)
- 등간변수: 변수들 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수
- 비율변수: 등간변수의 특성에 더하여 측정데이터 간의 비율계산이 가능한 변수
- 질적변수(Qualitative Variable): 변수의 값이 비수치적 특정 카테고리에 포함 시키도록 하는 변수 (ex.색상, 성별, 종교)
- 독립변수 vs 종속변수: 데이터의 관계에 따른 분류
- 독립변수(Independent Variable): 다른 변수에 영향을 미치는 변수
- 종속변수(Dependent Variable): 다른 변수에 영향을 미치지 못하고 다른 변수의 영향을 받는 변수
1.3 통계 기본용어
1.3.1 중심 통계량 : 데이터의 중심 경향을 나타내는 수치
- 평균(Average): 표본데이터의 중심무게 (산술평균, 기하평균, 조화평균, 가중평균)
- 중앙값(Median): 순서를 가진 표본데이터의 가운데(50%)에 위치한 값
- 최빈값(Mode): 표본데이터 중 가장 빈번한 값
1.3.2 변동 통계량: 데이터의 변동성을 나타내는 수치
- 범위(Range): 최대값과 최소값의 차이
- 편차(Deviation): 관측값과 평균의 차이
- 변동(Variation): 편차 제곱의 합
- 분산(Variance): 편차 제곱의 합을 데이터의 수로 나눈 값
- 표준편차(Standard Deviation): SQRT(분산)
1.3.3 형태 통계량: 데이터의 분포형태와 왜곡을 나타내는 수치
- 왜도(Skewness): 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도
- 첨도(Kurtosis): 뾰족함 정도
- 이상치(Outlier): 오류로 판단하는 값이지만 기준이 불명확
1.3.4 관계 통계량: 데이터간의 관계를 나타내는 수치
- 상관관계(Correlation): A변수의 변화와 B변수의 변화방향의 (선형적)유사성으로 표준화된 공분산이라고도 함
- 인과관계(Causality): A변수와 B변수중 하나는 원인이 되고 다른 하나는 결과가 되는 관계성
1.3.5 시계열 주요 통계 용어
- 공분산(Covariance) : 2개의 확률변수의 선형 관계를 나타내는 값(확률 변수X,Y의 상관 정도를 알 수 있음)
- 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가짐
- 상관관계의 상승 혹은 하강하는 경향을 알 수 있음(상관관계랑은 다른 개념)
- 상관계수(Correlation)
- 자기공분산(Autocovariance) : X,Y 사이의 공분산이 아닌, 같은 X변수이지만 s시점과 t시점간의 공분산
- 자기상관 함수(Autocorrelation Function, ACF)
- 편자기상관 함수
- 백색잡음(White noise) : 서로 uncorrelated 되어 있는 확률 변수로부터 추출한 데이터
1.4 가설 검정
1.5 표본 추출
중요성1. 모든 통계적 분석은 샘플이 모집단을 대표할 수 있다는 가정!
모집단의 특성을 통계로 설명하는 것은 제법 괜찮은 접근이지만, 샘플이 모집단을 대표하지 못하면 거짓말 분석결과(유의미하지 않은 통계)
중요성2. 빅데이터라고 하더라도 결국 편향이 없을 수 없는 샘플!
많은 전문가들이 통계의 한계를 전문적인 이유로 설명하지 못하더라도 본능적으로 왜곡될 수 있음을 인지하고 있고, 아무리 공정하게 추출하려 해도 편향이 없을 수 없음을 인지해야 함
장점: 과학적 연구에서 표본조사가 전수조사보다 선호되는 이유
1. 정보가 신속하게 필요한 경우, 데이터수집, 분석을 신속히 처리
2. 신속한 의사결정시간에 따른 비효율을 줄이고 비용과 시간이 절약되어 경제적
3. 샘플링이 데이터의 수집과정 상의 오류를 더 잘 통제하기에 전수조사보다 비표본오차가 적어 정확도가 높음
4. 모집단이 무한히 많거나 정확한 파악이 불가하거나 특정 집단에서만 수집된 데이터의 경우 전수조사가 불가하기에 불가피하게 표본조사를 시행해야 함
단점
1. 모집단 자체가 작은 경우 표본조사가 무의미 할 수 있음
2. 데이터의 특성을 정확히 모르면서 샘플링을 하면 bias나 왜곡이 더욱 증가될 수 있음
3. 모집단을 완벽하게 대표하는 표본을 선정하는 일은 쉽지 않음(그래도 안하는 것보단 나음)
1.5.1 샘플링 방법론
- Process
- Comparison
확률표본(Probability Sample): 무작위추출 | 비확률표본(Nonprobability Sample): 작위추출 | |
방법론 | 주관을 배재하고 각 샘플이 뽑힐 확률을 확률적(객관적)으로 균등하게 부여 => "확률표본" | 샘플이 뽑힐 확률을 수학/확률적인 방법을 따르지 않음 => "비확률표본" |
장점 | 표본이 추출될 확률 사전적으로 알때 용이 | 표본이 추출될 확률 사전적으로 모를때 용이 |
모수추정에 bias가 없음 | 모수추정에 bias가 있음 | |
추출기회가 독립적이라 대표성이 높음 | 추출기회가 독립적이 않아 대표성이 낮음 | |
단점 | 시간과 비용이 많이 듦(표본의 크기가 커야함) | 시간과 비용이 적게 듦(표본의 크키가 작아도됨) |
모집단 일반화 | 가능 | 불가능(모집단의 대략적 성격 파악 목적) |
표본오차(신뢰구간) 추정 | 가능 | 불가능 |
종류 | 단순임의|계통|층화|군집(집락) 표본추출 | 편의|할당|자발적 표본추출 |
1.5.2 확률표본(Probability Sample) 추출법
- 종류
- Summary
종류 | 추출법 | 비고 |
단순임의 표본추출(Simple Random Sampling) | 모집단으로 표본을 균등한 확률로 추출하는 것으로, 추출된 표본을 단순임의표본이라고 함 | 100명(남60,여40) 중 10명을 뽑을 시 전부 남자일 수 있어서 모집단의 특성을 반영하지 못하는 대표성 한계 |
체계적 표본추출(Systematic Sampling) | 첫번째 표본을 무작위로 선정한 후 k번째 간격의 표본들을 선정함 | 단순임의추출의 대표성 한계를 줄이기 위해서이며 비용이 적게들고 정확성이 단순임의 추출보다 높은편 |
k는 모집단의 크기를 원하는 표본의 크기로 나누어 계산 | ||
층화 표본추출(Stratified Sampling) | 모집단을 서로 겹치지 않는 여러 개의 층(부분집단)으로 구분 후, 각 층에서 단순임의추출로 표본 추출함 | 단순임의추출의 대표성 한계를 줄이기 위해 여러 층으로 구분하여 bias를 회피 |
층간은 이질적이나 층내는 동질적인 데이터에 적합(ex. 개발 파트 vs 분석 파트) | ||
군집 표본추출(Cluster sampling) | 모집단을 서로 인접한 값들로 묶어 집단을 구성후, 특정 집단의 일부 또는 전체를 표본으로 함 | 집단간은 동질적이나 집단내는 이질적인 데이터에 적합(ex. 분석파트1 vs 분석파트2) |
1.5.3 비확률표본(Nonprobability Sample) 추출법
- 종류
- Summary
종류 | 추출법 | 비고 |
편의 표본추출(Convenience Sampling) | 특정 집단이나, 계층 및 시간대로 데이터만을 대상으로 표본을 선정 | 시간과 비용이 적게 들지만 대표성 문제 아주 높음 |
판단 표본추출(Purposive Sampling) | 분석가 주관으로 분석에 도움이 된다 판단되는 대상만을 표본으로 함 | 전문가여야 가능하며 그렇지 않으면 모집단의 대표성 문제 높음 |
할당 표본추출(Quota Sampling) | 모집단이 여러 특성을 가질 경우 각 특성에 따라 층을 형성 후, 층별로 표본을 같게 또는 비례 선정 | 모집단의 특성을 잘 아는 전문가이어야 하마 그렇지 않으면 대표성 뿐 아니라 Bias 문제 높음 |
출처 : 파이썬을 활용한 시계열 데이터 분석 A-Z 올인원 패키지 Online.(Fastcampus)