숫자 요약
자료의 요약방법은 그래프적 표현과 숫자에 의한 요약이 있다.
숫자요약은 자료의 관측값을 대표하는 통계량을 구해 자료의 특성을 파악하는 통계적 방법이다.
통계량이란 X1+X2+X3+X4---Xn 이런 식이고 여기 X에 숫자를 넣은 값을 통계치라고 한다.
중요한 통계량으로는 자료의 중심위치를 나타내는 평균, 중위수와 가장 많은 관측값이 있는 최빈값 그리고 흩어진 정도를 측정하는 분산과 범위가 있다.
기본 용어
변수(variable): 문자를 이용해 자료를 표현하는 방법
모수(parameter): 자료가 수집된 전체 대상집단 모집단을 대표하는 값으로 일반적으로 알려져 있지 않으며 통계학은 이 모수에 대해 추정과 검정을 실시한다.
통계량: 알려져 있지 않은 모수를 알기 위해서 모집단의 일부를 보고 모수를 추정한다. 표본에서 얻어진 값을 통계량(식)이라고 하며 통계량 중에 모수를 추정하는 값을 추정량이라고 한다.
통계량
자료를 숫자로 요약하는 것은 통계량을 계산한다는 의미다. 자료를 대표하는 통계량은 자료를 중심으로 측정하는 통계량과 자료의 흩어진 정도를 측정하는 통계량으로 구분된다.
1) 자료의 중심을 측정하는 통계량
평균: 관측값을 다 더한 후 n개로 나눈 값이다.
중위수(중앙값): 관측값의 크기 순서를 이용해 자료의 중심을 측정하는 통계량으로 자료를 크기 순서로 정리했을때 가운데 위치하는 관측값이다.
중앙값구하는 방법: n+1/2이 n개의 가운데 위치하는 중앙값이다.
예를 들어 n=10인 경우 10+1/2=5.5이며, 중위수는 5번째 순서와 6번째 순서값의 평균이 된다.
최빈값: 자료의 빈도수가 많은 값
2) 자료의 흩어진 정도를 측정하는 통계량
산포도: 흩어진 정도(분포)가 어떻게 되는가를 측정하는 것
자료의 변화량의 측정은 자료가 어느 정도 중심에 집중되어 있는지를 측정해 중심의 대표성에 대한 평가와 자료 분포의 구조적 특성을 파악할 수 있도록 해준다.
예를 들어)
만약 자료1, 자료2가 있을때 모두 좌우대칭이고 평균=중위수=최빈값이 일치하며 동일한 값을 갖는다.
하지만 자료 1은 모든 구간에서 관측값의 상대도수가 비슷하게 분포되어 있다. 자료2는 중심에 집중 분포되어 있다.
이럴때 자료1과 2는 평균보다 중심을 잘 표현할 수 있는 도구가 필요하다 이것이 바로 분산이다.
분산이란(S2(제곱)) 자료의 흩어진 정도를 명확한 값으로 측정하는 통계량이다. 자료의 떨어진 정도(편차)를 구해서 흩어진 정도를 구한다.
편차는 좌우 대칭일 경우 합이 항상 0이다. 이 편차를 이용해서 흩어진 정도를 측정하는 것이 분산이다.
표본 분산은 관측값의 편차를 제곱한 후 합해서 n-1로 나눈 값이다.
이는 대부분이 관측값이 평균에 가까이 있으면(편차가 작으면) 값이 작아지고, 평균에서 멀리 떨어져 있으면 그 값이 커진다.
'모두의 연구소_아이펠학교 대전 1기_2021 > 스터디 자료' 카테고리의 다른 글
| [확률]2. 자료수집과 자료표현 (0) | 2021.07.06 |
|---|---|
| 4. 정렬 알고리즘 (1) | 2021.06.09 |
| 3. 기초 알고리즘 (0) | 2021.06.02 |
| 2. 기본자료 구조 (0) | 2021.06.02 |
| 1. 알고리즘의 기본 이해 (0) | 2021.06.02 |