검수요청.png검수요청.png

평균

위키원
Junwoen (토론 | 기여)님의 2023년 2월 6일 (월) 17:54 판 (새 문서: '''평균'''(平均)은 여러 수나 같은 종류의 양의 중간값을 갖는 수를 의미한다. 산술 평균, 기하 평균, 조화 평균 따위가 있는데 일반적으로...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
이동: 둘러보기, 검색

평균(平均)은 여러 수나 같은 종류의 양의 중간값을 갖는 수를 의미한다. 산술 평균, 기하 평균, 조화 평균 따위가 있는데 일반적으로 산술 평균을 이른다.

개요

평균은 대푯값의 일종이다. 산술 평균, 기하 평균, 조화 평균 등이 있다. 또 통계학에서 두 가지 서로 연관된 뜻이 있다. 일상에서 평균이라고 부르는 것으로 산술 평균이라고도 하며 표본 평균과 관련 있다. 기하 평균이나 조화 평균과는 구별된다. 또한, 확률변수의 기댓값으로 모평균으로 다루어질 수 있다. 한편 역수의 산술 평균의 역수를 조화 평균이라 한다. 평균은 통계학뿐만 아니라 기하학이나 해석학에서도 쓰인다. 이러한 맥락에서 통계학에서는 그 목적에 맞는 다양한 평균들이 고안되었다. 표본 평균은 모평균 같은 중심경향치(center tendency)에 대한 추정량으로 자주 쓰인다. 그러나 중심경향치(center tendency)의 다른 추정량이 쓰이기도 한다. 실수값을 갖는 확률 변수 X에 대해서, 평균은 X의 기댓값이 된다. 기댓값이 존재하지 않는다면 그 확률변수에는 평균이 없다.

자료 집합에 대한 평균은 단순히 모든 관측값을 더해서 관측값 개수로 나눈 것이다. 일단 자료 집합의 공통성을 이렇게 설명하기로 하면, 관측값이 어떻게 다른지 설명하는 데는 보통 표준편차를 쓴다. 표준편차는 편차들(deviations)의 제곱합(SS)을 평균한 값의 제곱근이다. 평균은 편차 제곱의 합이 최소가 되는 유일한 값이다. 중심경향치(center tendency)을 평균이 아닌 다른 방식으로 측정하는 경우, 편차 제곱의 합을 구해 보면, 평균을 썼을 때 구한 값보다 크다. 이는 왜 통계 보고서에서 보통 평균과 표준편차를 인용하는지를 설명해 준다. 퍼진 정도에 대한 다른 측도로는 평균 편차가 있다. 이것은 (평균에 대한) 절대 편차를 평균한 것과 같다. 평균 편차는 바깥 값에 덜 민감하지만, 자료 집합을 합칠 때 다루기 어렵다. 모든 확률 분포가 평균이나 분산으로만 정의되지는 않는다는 점을 주의할 수 있다. 예를 들면 코시 분포 같은 것이 있다. 데이터에 대한 n개의 집합에서 평균을 구하는 다양한 방법을 살펴볼 수 있다. 여기서 사용한 기호는 수학 기호표를 참고할 수 있다.[1][2]

종류

모든 변량이 양수라는 전제하에 산술 평균 ≥ 기하 평균 ≥ 조화 평균이 성립한다.

산술 평균

산술 평균(算術平均, Arithmetic mean)은 가장 일반적으로 사람들이 생각하는 평균으로 다 합쳐서 개수만큼 나눠서 얻을 수 있다. 교육과정상에서 가장 먼저 배우게 되는 평균이기도 하다. 독립변수가 연속일 때 확률변수를 확률 측에도 대해 적분한 것으로 정의한다. 각각의 관찰 값들의 총합을 n으로 나눈 값이라고 말하기도 한다. 어찌 보면 당연한 사실이겠지만 모든 관찰 값들에 같게 임의의 값을 더하거나, 뺀 뒤 다시 평균을 내면 평균에도 같은 값이 계산된 결과가 나온다.

산술 평균 공식

산술 평균은 아래와 같은 4가지 특징을 가지고 있다.

  • 극단적인 값에 민감하다. 보통 평균과 비교되는 중간값, 최빈값과 비교하면 극단적인 값에 더 크게 영향을 받는다. 예를 들어 {1,2,3}에서 평균은 2이고 중간값도 2이다. 하지만 3을 96으로 바꾼 {1,2,96}의 경우에 중간값은 2로 변함없지만 평균은 33으로 매우 크게 변한다.
  • 편차의 합이 0이 된다. 분산 참고.
  • 분산이 가장 작다. 이 개념은 회귀분석을 배울 때에도 쓰인다. 최빈값 같은 다른 기준으로 분산을 구했을 때보다 항상 분산이 작게 나온다.
  • 표본 값의 평균이 모집단과 크게 다르지 않다. 표본을 어떻게 뽑느냐에 따라 평균은 다르게 나올 수 있다. 어쩌면 모집단의 평균과 한참 거리가 먼 값이 나올 수도 있다. 이것은 중간값, 최빈값 등도 마찬가지이다. 그런데 산술평균은 중간값, 최빈값과 비교해서 표본의 상태에 크게 영향을 받지 않는다. 그래서 다른 값들에 비해 모집단의 참값에서 크게 벗어나지 않는다.

모 평균

모 평균(母平均, population mean)은 모집단의 데이터를 모두 더한 후 모집단의 데이터 갯수 N으로 나눈 것이다.

표본 평균

표본 평균(標本平均, sample mean)은 표본의 데이터를 모두 더한 후 표본의 데이터 개수 n으로 나눈 것이다. 표본 평균은 확률변수이다. 즉, 어떤 표본을 추출했냐에 따라서 표본 평균의 값이 변하는 변수이다. 그렇기 때문에 표본 평균은 분포를 가지게 되고, 또 우리는 표본 평균의 평균 또는 표본평균의 분산을 계산하게 되는 것이다. 표본 분산이나 표본 표준 편차와 달리 n-1로 나누는 것이 아닌 것에 주의해야 한다. (표본분산 관련된 설명은 링크를 참고. 표본분산 계산)

가중 평균

가중 평균(加重平均, weighted mean)은 개별 값에 각각 가중값을 곱하고 계산한 산술 평균의 변형. 당신이 국어 40점 수학 50점일 때 학과에 따라 한쪽에 10%의 가산점을 주고 평균하는 경우가 여기 속한다. 참고로 성격차지수나 여론조사 때도 가중평균을 쓴다.

절사 평균

절사 평균(切捨平均, trimmed mean)은 평균을 구할때 극단값(이상값이라고도 불린다.)을 빼고 계산한 산술 평균의 변형이다. 평균을 낼 때 최고점/최저점이나 양극단의 10% 정도를 잘라내는 것이 여기 속한다. 피겨 스케이팅, 싱크로나이즈드 스위밍, 리듬체조 등 예술적 가치가 높은 스포츠 종목[1]에서 판정단이 점수를 내릴 때 최상위, 최하위 판정자 1명의 점수를 삭제하고 나머지 판정단의 점수로 평균을 내는 것이 이것이다. 보통 판정자 두 명 이상이 동시에 최상위 또는 최하위 점수를 부여할 경우 해당 판정자 모두의 성적을 다 삭제하지 않고 그중 한 명의 점수만을 삭제한다. 물론 최상위 최하위 점수자가 빠지기 때문에 모집단 수는 2를 뺀다.

기하 평균

기하 평균 공식

기하 평균(幾何平均, Geometric mean)은 변량을 모두 곱해서 거듭제곱근을 취해서 얻는 평균을 말한다. 연속변수의 경우 확률변수에 p제곱을 한 뒤에 적분한 것을 다시 p제곱근을 취하고 나서 독립변수의 측도로 나눠준 뒤 p를 0으로 보내면 된다. 기하 평균은 예를 들어 연간 경제성장률, 물가인상률, 연간 이자율, 감쇠율, 증폭률, 백분비, 크기 확대 비율 같이 표본들이 비율이나 배수이고 각 표본값이 연속성/연계성이 있어서 표본들을 곱한 값이 의미가 있는 경우에 주로 쓰인다. 예를 들어 한국의 2000년부터 2010년까지 평균경제성장률 등이 포함된다. 맹점이 하나 있는데, 곱하는 성분 중 하나라도 0이 있으면 기하 평균이 0이 되어버린다는 점이다. 그래서 표본 중 0이 있는 경우 이를 제외시켜야 한다. 모든 성분의 곱이 0보다 작을 경우 역시 주의해야 한다.

조화 평균

조화 평균 공식

조화 평균(調和平均, harmonic mean)은 변량들의 역수의 산술평균을 구한 후 그것을 역수로 취한 평균을 말한다. 연속변수의 경우 확률변수에 역수를 취한 것을 확률측도에 대해 적분한 뒤 다시 역수를 취한 후 독립변수의 측도로 나눠주면 된다. 역수를 취해야 하므로 변량 중에 0이 끼어있으면 계산할 수 없다. 또한 각 변량이 모두 양수여야만 의미있는 값이 얻어진다.

조화 평균은 기하평균과 같이 표본들이 비율이나 배수이지만 각 표본값은 독립적이고 표본끼리 곱한 값이 의미가 없을 때, 효율이나 속도 처럼 역수가 의미가 있을 때, 각 표본들이 비중이 같을 때 주로 쓰인다. 이런 표본값은 그냥 산술평균을 하면 값이 큰 쪽이 작은 쪽보다 부당하게 높은 비중을 차지하는 것을 시정하고 공정한 평균을 낼 수 있다. 성능이나 효율 속도 시간당 진도 통계 등에 그런 통계가 유효할 때가 많다. 예를 들어 여러 은행의 평균 이자율 이라든지 주식의 평균 주가수익률 이라든지 같은 것을 계산할 때 쓰는 게 좋다. 각 표본값들이 비중이 다를 때는 가중조화평균을 사용해야 한다. 과학에서 흔히 볼 수 있는 조화평균으로는 병렬 연결된 등가 저항이다. 대한민국에서 쉽게 볼 수 있는 조화평균으로는 한국 영화 평점 서비스 왓챠피디아의 평점이 있다. 평점이 50개를 넘어가면 조화평균으로 영화 평점을 구한다.

멱평균

멱평균 공식

멱평균(冪平均, power mean, Generalized mean)은 위 세 가지 평균을 일반화한 것으로, 산술평균은 k=1인 1차평균, 기하평균은 k=0인 0차평균, 조화평균은 k=-1인 –1차평균이 된다. 2차평균은 제곱평균제곱근이 된다. 대표적으로 표준 편차는 편차의 2차평균이다. 또한, 변량이 모두 양수인 경우 lim M(k)는 최댓값, lim M(k)는 최솟값이 된다.

대수평균

대수평균 공식

여기서 x, y는 양수이고 x = y인 경우 대수평균은 x가 된다.

대수평균(對數平均, Logarithmic mean)은 로그평균(logarithmic mean)이라고도 하며 두 수의 차를 두 수의 각 자연로그값의 차로 나누어준 값이다. 따라서 다른 평균과는 달리 변수가 오직 두 개일 때만 쓰인다. 또한, 로그를 사용하기 때문에 두 수는 양수여야 한다. 주로 공학에서 많이 쓰이며 원통형 벽에서의 열전도, 이중 열교환기에서의 평균 온도차 또는 원통형 콘덴서의 평균 축전량을 구할 때 쓰인다. 다만 대수평균을 써야 할 경우에도 큰 수가 작은 수의 두 배 미만인 경우 대수평균 대신 산술 평균을 쓰기도 한다.

두 수의 크기 차이가 커질수록, 특히 작은 수의 값이 0에 가까워질수록 대수평균은 작아지는 특성이 있다. 다만 기하평균 값보다는 크게 유지된다. 예를 들면

자료값 큰값/작은값 산술평균 대수평균 기하평균
1001 & 999 1.002 1000 1000.00 1000.00
1100 & 900 1.222 1000 996.66 994.99
1200 & 800 1.5 1000 986.52 979.80
1250 & 750 1.667(=5/3) 1000 978.81 968.25
1333(=4000/3) & 667(=2000/3) 2 1000 961.80 942.81
1500 & 500 3 1000 910.24 866.02
1600 & 400 4 1000 865.62 800.00
1800 & 200 9 1000 728.19 600.00
1900 & 100 19 1000 611.32 435.89
1990 & 10 199 1000 374.06 141.07
1999 & 1 1999 1000 262.88 44.71

산술 평균은 모두 1000인 데 비해 대수평균과 기하 평균은 줄어듦을 알 수 있으며 특히 큰 수가 작은 수의 20배가 넘어갈 경우 절반 이하로 줄어든다.[2]

동영상

각주

  1. 평균〉, 《위키백과》
  2. 2.0 2.1 평균〉, 《나무위키》

참고자료

  • 평균〉, 《나무위키》
  • 평균〉, 《위키백과》
  • 평균〉, 《네이버 국어사전》

같이 보기


  검수요청.png검수요청.png 이 평균 문서는 부동산 거래에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.