2.1 도수분포표
도수분포표(frequency table) : 관측된 데이터의 구간별 도수, 상대도수 등을 알기 쉽게 표로 정리한 것
일원 도수분포표 (one way) , n차원 교차표 (n-way cross table) 가 있음
계급(class), 대푯값, 도수(frequency), 상대도수(relatvie frequency), 누적도수(cumulative frequency), 상대 누적 도수(relative cumulative frequency)를 나타냄
각 점수를 변수라고 하고 X,Y 등으로 표기한다.
각 점수의 개수는 (빈)도수(frequency)라고 하고 fi 로 표기한다.
| X = xi | fi |
| x1 | f1 |
| x2 | f2 |
| x3 | f3 |
| : | : |
| xk | fk |
| Sum | n |
X = xi : 변수 x는 종류가 x1, x2, x3, ... , xk 이다
fi : x1, x2, ... , xk의 빈도수가 각각 f1, f2, ... , fk이다
n : 데이터의 전체 개수(총도수)
k = 계급의 수로 k = [log2n + 1] (절댓값 기호가 아니라 올림 계산이다)

상대 도수(relative frequency) : 총 도수(n)에 대한 도수(fi)의 비율. 상대 도수를 모두 더하면 1이 됨

n점 이하의 갯수 => 누적(cumualtive) 도수 (대문자 F, Fi으로 표기)

2.2.1 계수표
계수표(tally sheets) : 데이터 중에서 항목별 도수를 세기 위한 작업표
2.2.2 분할표
분할표(contingency table) : 데이터의 관찰영역이 두가지로 구분될때의 계수표. 두 변수에 대한 결합 분포를 보여주며, 두 변수간의 상호관계를 나타냄
결점 유형(X = xi)와 시간 (Y=yj)을 변수로 하는 결합분포표의 경우 결합도수는 f(xi, yj)로 표기함

2.3 히스토그램(histogram)
표본 데이터로부터 추측할수있는 모집단 분포의 특성
- 모집단 분포의 형태(shape), 중심위치(location), 산포(spread)
(a)낙도형 : 프로세스가 불안정하여 오염된 분포가 소량 혼합된 경우
(b)쌍봉우리형 : 프로세스가 두가지 특성을 갖는 하부 프로세스로 분리된 경우
(c)이빠진형 : 계측기에 문제가 있어 특정 영역의 값이 측정되지 않는 경우
(d)절벽형 : 전수검사 후 어떤 경계치 이하(이상)의 제품을 제외한 경우

2.4.1 줄기-잎 그림 (stem-and-leaf plot)
: 데이터를 분해하여 개별 데이터의 수치를 히스토그램 형태로 나타낸 그림. 잎으로 마지막 한자리 숫자, 줄기로 나머지 윗자리 숫자들을 나타냄
=> 히스토그램처럼 모집단 분포의 형태를 알아볼수있으며 각각의 관측치도 살필수있음

2.4.2 상자 그림(box plot)
4분위수(quartile)
: 정렬된 데이터의 순위
25%(Q1), 75%(Q3) 자리의 데이터도 중심 위치의 척도로 유의미한 값 (중앙값은 50% 위치의 값)
먼저 첨자를 구한 후, 구간에서 선형보간법으로 값을 계산한다 (오름차순 정렬된 자료)
- 제 1사분위수 \(Q_{1}\)의 첨자 : \(1+0.25(n-1)\)
- 제 3사분위수 \(Q_{3}\)의 첨자 : \(1+0.75(n-1)\)
첨자가 k,a일 경우 \(Q_{1} = x_{k} + a*(x_{(k+1)}-x_{k})\)
상자 그림(box plot)
: 관측 데이터를 수평축에 점으로 나타내며 중앙값과 사분위수를 상자로 표시하고 사분위수 범위의 1.5배 거리에 상한 및 하한 안쪽울타리를 나타낸 그림. 필요에 따라서는 사분위수 범위의 3배 거리에 상한 및 하한 바깥울타리를 나타냄
상자 그림은 중위수와 사분위수를 이용하여 그린 자료 집단에 대한 그림으로
1. 이상점에 대한 정보를 제공한다
2. 자료 중심부에 대한 분포 모양을 쉽게 알수있다
3. 둘 이상의 자료 집단을 비교할때 유용하다
4. 자료집단의 대략적인 분포를 파악할 수 있다
상자그림의 구성
1. 상자의 중앙에는 중앙값 표시. 데이터의 50%는 이 값보다 작거나 같음
2. 상자의 위쪽에는 제3사분위수이며 데이터의 75%는 이 값보다 작거나 같다. 상자의 아래쪽이 제1사분위수이며 데이터의 25%는 이 값보다 작거나 같다
3. 안쪽울타리의 상한은 \(Q_{3}+1.5\times (Q_{3}- Q_{1}) \), 하한은 \(Q_{1}+1.5\times (Q_{3}- Q_{1}) \)으로 계산. 안쪽 울타리를 벗어나는 데이터를 이상치(outlier)라고 함. 이상치는 원인을 규명할 필요가 있음.
4. 바깥울타리의 상한은 \(Q_{3}+3\times (Q_{3}- Q_{1}) \), 하한은 \(Q_{1}+3\times (Q_{3}- Q_{1}) \)로 계산. 바깥울타리를 벗어나는 데이터를 극단 이상치(extreme outlier)라고 함. 극단 이상치는 분석에서 제외시킴.

2.4.3 산점도(scatter diagram) : 상관(correlation)
: 쌍으로 측정된 두 자료(변수) 사이에 존재하는 관련성을 나타내는 차트
=> 하나의 변수가 다른 변수의 원인이 됨을 증명하지 못함. 관계의 존재 여부를 나타낼수있음
양의 상관 (positive correlation) : x가 증가하면 y도 증가하는(비례적) 경향이 있는 경우
음의 상관 (negative correlation) : x가 증가하면 y는 감소하는 (반비례적) 경향이 있는 경우
희박한 상관 : x의 변화로 y의 증/감을 확정할 수 없는 형태의 경우
곡선관계 : 점들의 직선이 아닌 곡선상에 위치하는 형태의 경우
=> x와 y 사이에 함수관계가 있더라도 직선 관계가 아니면 희박한 관계로 정의한다
이상점(outlier) : 집단에서 벗어난 점. 분석에서 제외시키고 별도로 원인을 조사
층화 : 두개 이상의 집단 발생시 이를 구분하는 원인 조사 필요. 층별로 분석시 강한 양의 상관관계를 발견 가능
2.5 중심 위치의 척도 : 평균(mean)
중심위치 : 데이터가 어떤 값을 중심으로 분포되어 있는가? 데이터를 대표할수있는 값은 어떤 값인가? 를 나타내는 양
=>> 대표값(representative value)이라 함
평균(mean), 중앙값(median), 사분위수(quartile), 최빈값(mode), 절사(trimmed) 평균, 기하(geometric) 평균, 조화(harmonic) 평균 등이 있음
산술 평균 : 데이터 총합을 총도수로 나눈 값
가중평균 (weighted mean) : \(\bar{x}\)
\( \bar{x}=\frac{1}{n}\sum_{i=1}^{k}\mathit{f}_{i}x_{i} \)
중앙값(median, 중위수)
=> med(x) :정렬된 데이터의 가운데 위치한 값
자료의 수가 n개일때
- n이 홀수일 경우 : \(med(x) = x_{\frac{n+1}{2}}\)
- n이 짝수일 경우 : \(med(x) = \frac{x_{\frac{n}{2}} + x_{(\frac{n}{2}+1)}}{2}\)
최빈수
=> mode(x) : 데이터 중에서 도수가 가장 큰 값: 공식은 따로 없음
절사 평균
: 정렬된 데이터 양끝에서 절사율만큼 데이터를 버린 나머지 데이터들만의 평균
기하 평균(geometric mean, \(\overline{x_{G}}\))
: 변동률, 증가율 등 비율로 측정되는 자료 \(x_{1}\), \(x_{2}\) .... \(x_{n}\) 의 대표값은 기하평균으로 계산하여야함
=> 데이터를 모두 곱한 값의 n제곱근 값
비교시 값 = 변동율 x 기준시값
\(\prod_{i=1}^{n}x_{i} = x_{1} *x_{2}*\cdots*x_{n}\)
\(\overline{x_{G}} = \prod_{i=1}^{n}x_{i}^{1/n}\)
조화 평균(harmonic mean, \(\overline{x_{H}}\))
속도, 단가 등 단위 당 크기로 측정되는 자료의 대표값은 기하평균으로 계산
: 데이터의 역수의 평균의 역수
\(\overline{x_{H}} = \frac{1}{\frac{1}{n}\sum_{i=1}^{n}\frac{1}{x_{i}}} = \frac{n}{\sum_{i=1}^{n}\frac{1}{x_{i}}}\)
EX. 단가 = 총 금액 / 총량, 속도 = 총 거리/총 시간
중심위치의 대표값을 선정하는 기준
- 명목척도로 측정된 데이터는 최빈값 사용
- 분포가 대칭이고 이상점이 존재하지 않으면 산술평균 상요
- 비대칭이거나 이상치가 존재하면 중앙값을 사용하고 산술평균을 참고값으로 비교
- 순위 척도로 측정된 데이터는 중앙값 사용
2.6. 산포(variation)의 척도(mesure)
산포도(measure of variation) : 산포의 척도는 데이터가 중심위치(평균)으로부터 떨어져있는 정도를 나타내는 양
-> 분산(variance), 표준편차(standard deviation), 범위(range), 사분위수 범위(inter-quartile range), 변동계수(coefficient of variation) 등을 사용
편차(deviation) : 각 데이터와 평균과의 차
- 데이터 \(x_{1}\), \(x_{2}\) ... \(x_{n}\) 와 평균과의 차의 평균을 계산하면 되는데,
- 이 편차의 평균을 계산하면 산포도로 가장 적합할 것이다. 그런데 편차의 합은 0으로 의미가 없다
- 그래서 대안으로 편차의 절대값을 평균으로 사용. 그러나 절대값의 특성으로 인하여 전개가 불가능함
- 그래서 편차의 제곱의 평균을 이용하여 산포도로 사용
편차도 평균처럼 소수점을 써줘야함
모분산 = 변수의 제곱의 평균 - 변수의 평균의 제곱
\( \sigma ^{2}_{x} = \frac{1}{N}\sum_{i=1}^{n}(x_{i} - \bar{X})^{2} = \frac{1}{N}\sum_{i=1}^{n}x_{i}^{2}-\bar{X}^{2} = \bar{X^{2}}-\bar{X}^{2}\)
표본분산 = \(s^{2} = \frac{1}{(n-1)}\)[변수의 제곱합 - 변수의 합의 제곱/n]
\(\frac{1}{(n-1)}\left [ \sum x_{i}^{2} - \frac{1}{n}(\sum x_{i})^{2} \right ]\)
표본표준편차
s = \(\sqrt{s^{2}}\)
데이터의 범위
\(R = Max(X) - min(X)\)
사분위수 범위
\(IRQ = Q_{3} - Q_{1}\)
변동계수
\(CV=\frac{s}{\bar{x}}\)
2.7. 평균과 분산의 성질 선형변환
변수 \(X = x_{i}\)에 대하여 \(Y = aX + b\) (단, \(a\), \(b\)는 상수)로 선형 변환할 경우
1.
\(\bar{Y}= a\bar{X} + b\) -> \(\bar{X} = \frac{1}{a}(\bar{Y}-b)\)
2.
\(\(V(Y) = a^{2}V(X)\) -> \(V(X)=\frac{1}{a^{2}}V(X) )\)
3.
\(\sigma _{Y} = |a|\sigma _{X}\) -> \(\sigma _{X} = \frac{1}{|a|}\sigma _{Y}\)
변수 \(X = x_{i}\)와 \(Y = y_{i}\)에 대하여
1. 두 변수의 합의 평균은 각각의 평균의 합과 같다. \(\bar{X+Y} = \bar{X} + \bar{Y}\)
2. \(Var(aX+bY) = a^{2}Var(X) + b^{2}Var(Y)+2ab Cov(X,Y)\)
두 변수의 곱에 대하여는 성립하지않는다.
\(\bar{XY} \neq \bar{X}\bar{Y}\)
'확률과 통계' 카테고리의 다른 글
| 확률과 통계 1장: 통계학 (1) | 2025.03.13 |
|---|