박수칠 [423466] · MS 2012 (수정됨) · 쪽지

2016-02-22 15:17:30
조회수 20,055

[박수칠] 표본분산을 계산할 때 n-1로 나누는 이유는?

게시글 주소: https://profile.orbi.kr/0008030499

2016학년도 수능에 적용되었던 2007 개정 교육과정에서


2017학년도 수능에 적용될 2009 개정 교육과정으로 넘어가면서


가장 변화가 적은 과목을 꼽으라면 확률과 통계를 있습니다.




변화된 내용을 나열하면



(1) 합의 법칙, 곱의 법칙 추가


(2) 집합의 분할, 자연수의 분할 추가


(3) 연속확률변수의 평균, 분산, 표준편차 삭제


(4) S², S 추가



정도 뿐이니까요.




(문과의 경우에는 변화에


원순열, 중복순열, 같은 것이 있는 순열, 모비율 추정이


더해집니다.)








작은 변화에서 눈에 띄는 것이 있죠?


바로 표본분산을 의미하는 표본표준편차를 의미하는 S


추가되었다는 점입니다.




2007 개정 교육과정에서는


표본분산, 표본표준편차라는 용어만 다뤘을 ,


각각의 기호에 대한 언급이 없었거든요.




2009 개정 교육과정에 S 추가된 이유는 아마도


통계적 추정을 효과적으로 가르치고, 문제 출제에 활용하기 위한


것이라 생각됩니다.








그럼 표본분산에 대해 자세히 알아보겠습니다.








모집단으로부터 임의추출된 크기 n 표본이 있다고 합시다.


표본에는 다음과 같은 변량이 포함되어 있습니다.  







(이산확률변수 단원에 설명되어 있듯이 확률변수는 알파벳 대문자로,


확률변수가 갖는 값은 알파벳 소문자로 표현합니다. 따라서


표본에 포함된 변량들을 대문자로 표현한 것은


이들이 모두 확률변수라는 뜻입니다.




확률변수냐?




모집단이 1부터 100까지의 자연수로 이루어졌다고 가정하면


가질 있는 값은 1부터 100까지의 자연수,


가질 있는 값은 1부터 100까지의 자연수,



이런 식으로 각각의 변량들이


모집단에 속한 모든 값을 가질 있기 때문입니다.)




이때, 표본평균  표본분산 

각각 다음과 같이 계산됩니다.














표본평균은 일반적인 평균과 마찬가지로


표본에 포함된 모든 변량의 합을 표본 크기 n으로 나눕니다.




그런데 표본분산이 다르죠?


일반적인 분산과 같이 (편차 합을 표본 크기 n 나누지 않고,


표본 크기에서 1 , n-1 나눕니다.








이유가 뭘까요?








교과서를 찾아보면




(1) 표본분산과 모분산의 차이를 줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬)


(2) 표본분산의 기댓값을 모분산과 일치시키기 위해 - 금성, 천재(이준열)




라고 간단하게 언급하고 있습니다.




이것만 보고 이해하면통계 천재 ㅡㅡ;


(교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요.

요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로

6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠.

제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.)



그래서 자세하게 설명드리겠습니다.








(1) 표본분산과 모분산의 차이를 줄이기 위해?




모평균을 추정하려면


모집단으로부터 크기 n 표본을 임의추출하고,


표본평균  구한 다음모표준편차  이용해서

다음 식으로 신뢰구간을 구하게 됩니다.










그런데 일반적인 통계 문제에서는

모평균  뿐만 아니라 모표준편차  없습니다.


(간혹 모표준편차가 주어지는 문제가 있지만, 공부를 위한 예제일 뿐이죠.)




그래서 표본 크기가 30 이상일 때는


모집단의 분포와 표본의 분포가 비슷하다고 간주하고


모표준편차  자리에 표본표준편차  대입하게 됩니다.




때문에 신뢰구간이 들어맞으려면


(, 신뢰구간에 모평균이 실제로 포함되려면)


표본표준편차가 모표준편차에 가까운 값을 가져야 하죠.








하지만 그게 쉽나요.


표본표준편차는 대체로 모표준편차보다 작거든요.




설명을 위해 아래의 예를 보겠습니다.


(엑셀 통계 관련 기능 진짜 오랜만에 ^^)







위는 정규분포 N(50, 15²) 따르는 모집단에서


크기 30 표본을 임의추출하기를 다섯 반복한 결과입니다.


(각각의 변량은 신경쓰지 말고, 아래에 있는 평균과 분산에 주목해주세요.)








먼저 분산(÷30) 일반적인 분산과 같이


(편차 합을 표본 크기 30으로 나눈 값입니다.




왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며,


모분산 15²=225 차이가 어느 정도 있는 편입니다.








다음으로 분산(÷29)


(편차 합을 (표본 크기)-1, 29 나눈 값입니다.




그럼 분산이 어떻게 변할까요?


분모가 줄었으니 분산은 당연히 커집니다.




왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데


번째 표본을 제외하면 분산(÷30) 경우보다 모분산 225


가까워졌음을 있네요.








이런 이유로 표본 분산을 구할 때는


(편차 합을 (표본 크기) 아니라 (표본 크기)-1 나누는 것이


합리적이라 있습니다.








그런데이런 의문도 듭니다.


‘(표본 크기)-2 나누면 모분산에 가까워지지 않을까?’




그러나


n-1 나누는 것은 괜찮지만, n-2 나누는 것은 안됩니다.


n-1 나누는 것은자유도라는 개념과 연결되거든요.








자유도를 간단하게 설명하면 다음과 같습니다.




평균이 50 a₁, a₂, a₃ 있다고 합시다.


만일 a₁=40, a₂=65라면 a₃ 값은 45 되어야 합니다.


평균이 정해져 있으니까요.




a₁, a₂, a₃ 가운데 a₁, a₂ 값은 자유롭게 정할 있지만,


a₃ 값은 a₁, a₂ 값에 따라 정해집니다.




그래서 a₃자유도가 없는 라고 하며,


자유도는 변수 개수에서 자유도가 없는 수의 개수를 2 됩니다.








앞의 표본도 마찬가지입니다.


29 변량의 값은 자유롭게 정할 있지만, 30번째 변량은


평균이 50 가까워야 한다는 조건 때문에 자유도가 없는 수가 됩니다.




따라서 자유도는 29 되고, 표본분산을 구할  


(편차 합을 자유도로 나누게 되는 겁니다.








(2) 표본분산의 기댓값을 모분산과 일치시키기 위해?




(1) 경험적인 이유라면 (2) 수학적인 이유입니다.


계산으로 명확하게 입증되거든요.




표본분산을 { (편차 } ÷ (n-1) 정의하면


다음과 같이 표현할 있습니다.







이때, 표본분산의 기댓값은 다음과 같이 모분산과 일치하게 됩니다.


(유도 과정은 ~ 복잡하기 때문에 생략)







모집단으로부터 크기가 같은 표본을 반복해서 임의추출하고,


각각의 표본에서 표본분산을 계산하고,


다시 표본분산들의 평균을 구하면 


모분산 이랑 일치한단 얘기죠.




뭔가 맞아떨어지죠?








반면에


표본분산을 { (편차 } ÷ n으로 정의하면





표본분산의 기댓값은 다음과 같이


모분산  만큼의 차이가 생기게 됩니다.







n-1 나누는지 감이 조금 오죠? ^^








혹시나 해서 드리는 얘긴데


내용이 이해가 되지 않아도 아무 걱정할 필요 없구요,


그냥표본분산 구할 때는 (편차 합을 n-1 나눈다라는 것만


새겨두시면 됩니다 ^^

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.

  • 금눈깔 · 645955 · 16/02/22 15:19 · MS 2016

    박수칠 수학 책 교과서처럼 그냥 읽는건가요? 어떤 점이 내세울만 한가요?

  • 박수칠 · 423466 · 16/02/22 15:28 · MS 2012

    개념 부분은 교과서처럼 읽으면서 이해하고, 문제 부분은 손을 쓰면서 따라 풀어야죠.
    연습장에 풀어도 괜찮지만 부교재를 이용하면 더 효과적입니다.
    부교재에 있는 수능/모평 기출문제로 연습할 수 있구요.

    박수칠 수학의 내세울 점이라...

    일단 개념을 가장 자세하게 설명한 교재 가운데 하나구요,
    개념-기본 유형 다음에 주요 기출이 다이렉트로 연결됩니다.
    처음 공부할 땐 어려울 수 있겠지만, 유형 접근법 파악하기에
    상당히 효과적인 방식이라 생각합니다.

    (그래도 어려운 부분에는 회색 동그라미 표시가 있어서
    건너뛸 수 있도록 했구요.)

    자세한 책 소개는 아래 주소 참고하시면 됩니다.
    http://orbi.kr/0007649774

  • 금눈깔 · 645955 · 16/02/22 15:30 · MS 2016

    문제는 따로할거구 교과서처럼 읽어보는용도로 좋나요?

  • 박수칠 · 423466 · 16/02/22 15:39 · MS 2012

    본교재는 개념-문제-풀이 이런 식으로 연결되어 있기 때문에
    기본이 있는 수험생이라면 읽는 것만으로도 내용 정리가 될 것 같습니다.

  • 반가운이름 · 580251 · 16/02/22 16:52 · MS 2015

    내년에 동생은 이거 시켜야지
    올해는 책이 다 안나올듯 ㅠㅠ
    칼럼 언제나 잘 보고 있어요~

  • 박수칠 · 423466 · 16/02/22 17:27 · MS 2012

    저도 빨리 쓰고 싶은데 올해는 확통만 낼 수 있을 것 같네요.
    읽어주셔서 감사합니다 ^^

  • 삼성 · 621756 · 16/02/22 17:10 · MS 2015

    수험생은 아니지만 잘 읽고 있어요. 아즈.... 아니 아재.

  • 박수칠 · 423466 · 16/02/22 17:28 · MS 2012

    우선 아재라 해주셔서 감사드리고,
    늘 읽어주셔서 또 감사드립니다 ^^

  • 설간17 · 595434 · 16/02/22 18:05 · MS 2015

    지우지 말아주세요 확통도 얼른 나오면 좋겠네요 그렇다고 집필하시는데 너무 무리하지는 마시고요.. 진짜 궁금했던건데 항상 좋은글 감사합니다

  • 박수칠 · 423466 · 16/02/22 23:40 · MS 2012

    글 안지우니 걱정마세요~
    2년 전에 오르비에 쓴 첫 번째 글도 아직 남아있으니까요 ^^

    그리고 부교재 작업 끝나면 확통 쓰기 시작합니다.
    여름~가을 사이 예정이라 최종 정리용으로 활용할 수 있도록
    시기를 맞춰보겠습니다.

  • 97 재수생 · 578701 · 16/02/22 23:56 · MS 2015

    저것은 베라...??

  • 박수칠 · 423466 · 16/02/22 23:57 · MS 2012

    어... 츠네모리 감시관이다!

  • 97 재수생 · 578701 · 16/02/23 00:04 · MS 2015

    동지 발견!

  • 설간17 · 595434 · 16/02/23 08:48 · MS 2015

    올 네 맞아요ㅋㅋ

  • 제헌이 · 473636 · 16/02/22 19:56 · MS 2013

    엌ㅋㅋ 대학교에서 배웠던것같네요

  • 박수칠 · 423466 · 16/02/22 21:08 · MS 2012

    맞습니다.
    저도 학부 때 확통 과목 들으면서 배웠어요^^

  • 제헌이 · 473636 · 16/02/22 22:42 · MS 2013

    전 분석화학..? 에서요  ㅋㅋ

  • baaaaaaaaaam · 592393 · 16/02/22 20:43 · MS 2015

    수능에 필요한가요?

  • 박수칠 · 423466 · 16/02/22 21:13 · MS 2012

    아뇨~
    본문 마지막에 언급했듯이 표본분산 구할 때
    n-1로 나눈다는 것만 알면 충분합니다.

    이유가 궁금해서 잠못자는 분들을 위해 썼어요 ^^

  • 무천도사 · 448989 · 16/02/22 22:23 · MS 2013

    성지교과서에 있는 내용이네용

  • 박수칠 · 423466 · 16/02/22 23:49 · MS 2012

    찾아보니 본문의 (2)에 대해 자세히 설명되어 있네요.
    본문에 생략했던 유도 과정도 포함되어 있구요.

    칼럼 쓸 때 개정교과서만 참고하는 바람에
    성지에도 설명되어 있는 줄 몰랐네요. (뭔가 놓친 느낌...)

  • 무천도사 · 448989 · 16/02/23 00:04 · MS 2013

    갓 성지 교과서

  • 박수칠 · 423466 · 16/02/23 00:24 · MS 2012

    성지 교과서 좋죠.
    일반 교과서와 정석의 중간쯤에 위치한 느낌이랄까...

    박수칠 수학 미적분1, 2 쓰면서 가장 많이 참고한 자료가
    개정 9종 교과서, 성지 교과서, Calculus(Stewart)인데
    확통 쓸 때도 계속 봐야겠네요.

  • 안광지배철철 · 555805 · 16/02/22 23:48 · MS 2015

    와우

  • 박수칠 · 423466 · 16/02/22 23:54 · MS 2012

    음... 중간에 엑셀 캡쳐에 대한 반응인가요?

  • 안광지배철철 · 555805 · 16/02/23 00:13 · MS 2015

    두고두고 글 보려고 댓글 남겼어요ㅋㅋ

  • sadowsky · 571028 · 16/02/22 23:50 · MS 2015

    불편추정량 ㅋㅋ

  • 박수칠 · 423466 · 16/02/22 23:50 · MS 2012

    배우신 분이군요 ㅋㅋㅋ

  • 할롱 · 638373 · 16/02/23 00:55 · MS 2015

    정성글은 좋아요!

  • 박수칠 · 423466 · 16/02/23 01:41 · MS 2012

    제 글 좋아해주는 분도 좋아요!

  • ssssss111 · 554346 · 16/02/23 11:20

    수능 전에 친구 인강교재에서 봤다가 찝찝하게 넘어간 기억이 있었는데ㅋㅋ늦게 나마 이해하게 됬습니다!! 감사합니ㅏㄷ

  • 박수칠 · 423466 · 16/02/23 12:12 · MS 2012

    이런 댓글 참 좋아요~
    저도 읽어주셔서 감사드립니다 ^^

  • 그녀의속사정 · 582078 · 16/02/23 12:21 · MS 2015
    관리자에 의해 삭제된 댓글입니다.
  • 설거지하는급식충 · 596968 · 16/02/23 18:51

    달그락....달그락...

  • 18한양대 · 645028 · 16/02/24 09:53 · MS 2016

    박수칠 미적1도 있나요?

  • 박수칠 · 423466 · 16/02/24 10:31 · MS 2012

    현재 미적분1, 2가 나와 있고,
    여름~가을 사이에 확통이 나올 예정입니다.

    미적분1, 2의 본교재와 부교재는 아래 페이지에 있습니다.
    본교재 구입: https://atom.ac/books/1504
    부교재 다운로드: http://orbi.kr/0005897498

  • fdasdw2 · 602924 · 16/03/06 12:34 · MS 2015

    갓수칠썜~
    칼럼 올리신진 꽤 됐지만 공부하다가 의문이 생겨 여기에 남깁니다
    1. 표본분산 S가 임의추출시 편차제곱 총합을 n-1로 나누는건 알고있는데
    기본 분산공식 편차의제곱을 n으로 나누는것은 그렇게 오차가 크지 않기땜에 그대로 두는건가요?? (모분산 구할때, 표본평균의 분산 구할때)
    왜 하나로 통일하지 않고 n 또는 n-1로 갈린건지..

    2. S제곱의 개정수학에서의 위상과 기존개념과의 연관성이 궁금합니다
    모집단에서 n개를 임의추출하여 총합/ n 으로 X바(표본평균)를 정의하고, 그 X바가 확률변수이기땜에 거기에서 평균 분산 표준편차( 정확히 말하면 표본평균의 평균, 분산, 표준편차) 를 계산하는걸로 아는데
    기존 모집단에서 분산 표준편차 계산이나 표본평균의 분산 표준편차 계산에선 n으로 나누니깐
    위의 S제곱이 n-1로 나누는것은 큰 관련이 없는듯보이는데요(개인적인 생각에는 아예몰라도 표본평균의 ~ 시리즈는 구하는데 지장이 없으니)
    개정수학에서 위상이 커진것인지, 커졌다면 얼마나 커진것인지 궁금합니다.

    3. 통계 단원이 기본적으로 확률밀도함수도 그렇고 고교과정을 뛰어넘는 부분이 많기땜에 이해보다는
    받아들임이 많은것같아요.. 그래서 문제풀때도 되게 스킬적으로 기계적으로 풀게되는데
    아니 그렇게 할수밖에없는거같은데
    이해를 어느정도 해야할지..? 그냥 그정도면 충분할려나요
    갓수칠쌤 정도만큼만 설명해줘도 웬만한건 그러러니 하는데 교과서를 봐도 설명이 불충분한거같아서요. 근데 개정에서 통계 비중이 강화된건 사실이니 말입니다..

    질문이 길었네요ㅠㅠ

  • fdasdw2 · 602924 · 16/03/06 14:01 · MS 2015

    아 그리고
    표본평균은 거기에 나아가서 또 평균 분산 표준편차 구하는데
    표본분산은 왜 거기에 평균 분산 표준편차 구하지 않는것인지요?
    일반화가 안되거나 의미가 없나요??

    질문들 핵심만 요약하면
    1. 모분산 또는 표본분산을 정의할때 분모를 n-1 또는 n으로 통일하지 않는이유

    2. 표본분산, 즉 S제곱은 표본평균의 평균분산표준편차 관련해서 직접적인 상관 없는데 왜 개정교육과정에서 강화됐는지? (추가됐다길래..) 개연성이나 상관성?

    3. 통계공부에서 이해의 정도? (타 강사분들이 꼼꼼한 이해가 필요하다 하지만 실상은 증명하나도 교과서에 안싣으니까 의문)

    4. 표본의 평균의 평균분산표준편차 시리즈는 쫙 구하고 공부하면서
    표본의 분산의 평균분산표준편차나
    표본의 표준편차의 평균분산표준편차 안 구하는 이유?
    규칙이 없거나 의미가 없나?

    입니다. 질문은 독백체로 쓴거감안해주세요 ㅋㅋ

  • 박수칠 · 423466 · 16/03/06 22:53 · MS 2012

    1.
    크기 n인 모집단에서
    모평균은 (변량의 합) / n 으로,
    모분산은 { (편차)² 의 합 } / n 으로 정의됩니다.

    그리고 n의 값이 크면
    모평균, 모분산을 구하기 어렵기 때문에
    표본을 추출해서 모평균을 추정하게 되죠.

    표본을 이용한 모평균 추정에는 표본평균과 모표준편차가 필요합니다.
    그런데 모표준편차도 알 수 없기 때문에 모표준편차 대신
    표본표준편차를 사용합니다.

    표본표준편차를 구하기 위해 표본분산을 계산할 때
    예전에는 모분산과 똑같이 { (편차)² 의 합 } / n 을 적용했습니다.
    그랬더니 신뢰구간이 잘 안맞는다는 것을 발견하게 되었죠.

    표본분산이 모분산보다 작은 것이 이유였기 때문에
    표본분산을 { (편차)² 의 합 } / n-1 로 재정의하게 됩니다.
    이론적으로도 표본분산의 기댓값이 모분산과 일치하기 때문에 문제가 없구요.
    (표본을 여러 개 뽑아서 각각의 표본분산을 구하고, 그것들을 평균냈더니
    모분산이랑 가깝더라 이겁니다.)

    즉, 분산은 n으로 나누는 것이 맞고,
    모평균을 추정하기 위해 표본을 추출한 상황에서만
    n-1로 나누는 겁니다.



    2.
    본문 초반에 언급되어 있듯이
    기존 교육과정에 표본분산, 표본표준편차라는 용어만 있었기 때문에
    통계적 추정에 대한 효과적인 이해를 위해 기호까지 추가된거라 생각됩니다.



    3.
    고등학교 통계는 모평균의 추정을 설명하기 위해
    중간에 필요한 복잡하고 어려운 개념들을 최소화해서 설명하고 있습니다.
    그러다 보니 깊이 있는 이해가 필요한 문제들은 출제되지 않고 있죠.

    비중이 늘어나더라도 이 부분은 변하지 않을거라 생각되고,
    개념은 교과서 수준만 이해해도 충분할 겁니다.



    4.
    3에서도 말했다시피 고등학교 통계의 최종 목표는 모평균의 추정입니다.
    표본평균의 분포는 모평균 추정에 필요한 핵심 개념이구요.
    그러니 표본평균의 평균, 분산, 표준편차를 가르쳐야죠.

    본문에 언급되어 있듯이
    표본표준편차의 평균이 모표준편차와 일치하긴 하는데
    이것까지 다루면 통계 진짜 어려워집니다.

    통계적 추정을 이해하는데 꼭 필요한 것도 아니구요.
    그러니 빼야죠~ ^^

  • fdasdw2 · 602924 · 16/03/06 23:50 · MS 2015

    아 생각이 짧았던 부분이 느껴지네요
    어느정도 이해됩니다 고맙습니다!

  • 65535 · 665296 · 17/02/20 12:12 · MS 2016

    혹시 모평균의 추정에서 표본의 크기가 클 때 모표준편차와 표본표준편차가 큰 차이가 없음을 증명하는 자료도 갖고 있으세요? 관련 글 알고계시면 링크나 설명좀 부탁드립니다

  • 박수칠 · 423466 · 17/02/20 12:24 · MS 2012

    표본분산을 모분산의 추정치로 쓰는 것은
    표본분산의 기댓값이 모분산이랑 같기 때문입니다.

    이에 대한 증명은 박수칠 수학 확통 p.284,
    성지출판 적분과 통계 교과서 p.188에 있습니다.

    그리고 성지출판 교과서는 아래 링크에서 받을 수 있습니다.
    http://www.sungjipub.com/School/middlefile_down_pop01.html

    실제 적용 사례는 본문의 표와 같이
    엑셀을 이용해서 임의표본을 추출하는 방식으로 설명하면 될거구요 ^^

  • 한방에가자플리즈 · 909827 · 19/12/11 09:44 · MS 2019

    감사합니다 확실하게 이해가 되네요