본문 바로가기
모두의 연구소_아이펠학교 대전 1기_2021/스터디 자료

[확률]2. 자료수집과 자료표현

by 꾸덕 2021. 7. 6.
728x90

* 본 글은 고려대학교평생교육원 확률과 통계 강의와 통계학의 이해(이용구,김삼용)책을 참고하여 작성한 것임을 밝힙니다.


통계분석

-> 통계분석이란 특정한 집단을 대상으로 자료를 수집해 대상에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정(통계적 추론)을 하는 과정을 의미합니다.

대상에 대한 정보는 자료를 요약,정리한 결과로 숫자나 그림으로 정리된 통계를 의미합니다.
통계적 추론이란 수집된 자료를 사용해서 대상집단(모집단)에 대한 의사결정을 내리는 것으로
추정과 가설검정이 있습니다.

  • 추정: 대상 집단의 모수(특징을 나타내는 값)는 무엇일까?
  • 가설검정: 대상집단에 대해 가설을 설정한 후 가설의 채택여부를 결정하는 것

자료수집

자료 수집 방법은 대표적으로 표본추출과 실험 두가지로 나뉩니다.

1. 표본조사

어떤 대상 집단의 정보를 얻기 위해서는 집단 전체와 그 집단의 일부를 조사하는 방법이 있습니다
대상 집단 모두를 조사하는 방법을 총조사라고 하며 집단의 일부를 조사하는 것을 표본조사라고 합니다.
이는 총조사에 비해 시간과 비용을 절약할 수 있습니다.

표본조사의 용어를 알아보겠습니다.

  • 모집단: 조사하고 싶은 대상의 전체 집단
  • 원소: 모집단을 구성하는 구성원소
  • 표본: 조사하기 위해 뽑힌 모집단의 일부
  • 모수: 표본관측에 의해 구하고자 하는 모집단의 특성값

표본추출방법

표본조사에서 가장 중요한 것은 모집단을 잘 대표할 수 있도록 표본을 추출하는 것이다.
표본을 추출하는 방법은 다양한데 여기서는 단순랜덤추출법,

1) 단순랜덤추출법(Simple random sampling)

모집단이 n개의 원소로 되어있고, 그 중에서 n개의 표본을 추출한다고 할때 n개의 표본이 추출될 가능성을 랜덤하게 주는 경우를 의미한다.
예를 들어 돌려돌려 돌림판 같은 것이다.

2) 계통추출법(systematic sampling)

이 과정은 단순하고 편리해서 널리 사용되는 추출방법이다.
모집단을 k개의 집단으로 나누고 집단에서 몇번째 요소를 추출할 지 정한 후 모든 집단마다 해당 요소를 추출하여 표본을 추출하는 방법이다.
예를 들면 모집단 100명의 사람을 10개의 집단으로 나누고 1개 집단 당 3번째 사람을 뽑는 것이다.

3) 집락추출법(cluster random sampling)

모집단이 집단으로 구성되어 있고 그 집단에 번호를 붙일 수 있는 경우에 사용되는 방법이다.
각 집단을 집락이라고 하며 일부 집락을 랜덤으로 선택하고 각 집락 내에서 표본을 임의로 선택하는 방법이다.
예를 들면 서울시내 가구의 대상을 조사하고 싶을 경우 모든 가구에 번호를 부여할 수 가 없다. 그러나 서울이 25개의 가구로 되어 있고 각 구는 동으로 되어 있어서 전체 구 중에서 임의로 n개의 구를 추출하고 추출된 구에서 임의로 n개의 동을 추출해서 그 동에 있는 n개의 가구를 추출하면 전체 표본의 수를 구할 수 있다.

4) 층화추출법(stratified random sampling)

모집단이 이질적인 원소들로 구성될 경우 표본이 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다.
즉, 모집단이 서로 겹치지 않는 층으로 나누고 각 증에서 단순확률표본을 실행한다.
예를 들면) 서울시내 슈퍼마겟의 연평균 매출액을 조사하고 싶은 경우, 400개의 슈퍼를 단순랜덤추출법으로 표본 추출하는 경우 슈퍼마다 종류도 다르고 규모도 달라서 전체 슈퍼의 매출액 추정이 실제보다 낮게 평가 될 수 있다.
이런 경우 층화추출법을 사용해서 전체 슈퍼를 크기에 따라 4개의 층으로 구분하고 각 층에서 n개의 표본을 랜덤하게 추출한다.
예2) 물건의 품질을 관리할때 상,중,하로 나눠서 생산라인별로 층화하는 것!

층화추출법을 이용하는 이유는

  • 표본의 크기가 같은 경우 층화는 단순활률표본보다 추정오차의 한계를 작게 할 수 있다. 특히 층내의 값이 동질일 경우 더욱 그렇다.
  • 모집단 조사단위를 서로 편리한 그룹으로 묶어서 조사시 관측비용을 절감할 수 있다.
  • 모집단 내의 부그룹에 대한 모수 추정값을 따로 구할 수 있다.

자료표현

자료를 요약하는 방법은 그림과 그래프를 이용하는 방법과, 숫자를 이용하는 방법이다.
그림을 이용한 요약법은 막대,원, 히스토그램, 줄기와 잎그림, 상자그림이 있다.
숫자를 이용한 요약법은 평균, 중위수, 최빈값과 자료의 흩어진 정도를 측정하는 분산, 법위가 있다.

막대그래프와 히스토그램의 차이
히스토그램은 연속형 자료에서 사용된다. 1-10까지이런 식의 일정한 범위가 정해져 있다.
막대그래프는 연속적인 값이 아닌 범주형 자료에서 사용된다.
예를 들면) 히스토그램은 여자의 평균키는 160-163까지의 범위다 이렇게 표현 막대는 남자의 수는 50 여자의 수는 49 이렇게 범주형 자료다.

줄기와 잎은 숫자로 보이는 양적자료를 정리하는 방법으로 세부적인 값(최소값, 최대값 등)이 다 명시되어 있다.
줄기와 잎 그림은 숫자단위에 따라 두부분으로 나눈 후 큰 단위 값을 줄기, 작은 단위를 잎으로 정리한 것이다.
예를 들어 두자리 수 58는 10자리 단위 수 5는 줄기, 1단위수 8을 줄기로 정리한다.
이런 방법으로 모든 줄기를 순서대로 정리하고 잎을 크기 순으로 정리한다.

728x90

'모두의 연구소_아이펠학교 대전 1기_2021 > 스터디 자료' 카테고리의 다른 글

3. 자료 숫자 요약  (0) 2021.07.06
4. 정렬 알고리즘  (1) 2021.06.09
3. 기초 알고리즘  (0) 2021.06.02
2. 기본자료 구조  (0) 2021.06.02
1. 알고리즘의 기본 이해  (0) 2021.06.02