오뚜기의 데이터 분석 이야기

3. 누적백분률 곡선과 20대 80 법칙[오뚜기의 데이터분석 이야기]

오뚜기 2010. 1. 12. 06:28
오랜만에 오뚜기의 데이터 분석 이야기 연재 글을 다시 씁니다.

에공.. 그러다 보니 흐름이 끊기는 감이 없지않아 있네요.. ㅎ 그냥 마음이 가는 대로 글 올리렵니다.

오늘은 "누적 백분률 곡선"이랑 이 개념을 활용하여 20대 80대 법칙 증명하기에 대해 이야기 해 보겠습니다.

우리가 자료를 정리할 때 가장 자주 쓰는 방법이 등급을 정하고 각 등급 별 빈도를 표기하는 것입니다.
(도수 분포표)

예를들어 어느 학급의 영어 점수를 도수분포표로 나타내면 아래와 같습니다.
(아래에서 누적 빈도는 그 등급에 해당되는 빈도를 포함해서 그 이하 또는 그 이상에 있는 모든 빈도를 합친 것이고, 누적 백분율은 누적 빈도를 전체 대비 비중으로 표시한 것입니다.)

--------------------------------------------------------------------------------
    등   급                 빈도수               누적빈도                누적백분율
--------------------------------------------------------------------------------
   60점 이하                8 명                     8                            16
   60~70점                  9 명                    17                           34
   70~80점                 15 명                    32                           64
   80~90점                 11 명                    43                           86
   90~100점                 7 명                    50                          100(%)
--------------------------------------------------------------------------------
위의 자료에서 각 등급 구간의 중간점에서 누적 백분율만큼 올라가서 점을 찍고 각 점을 연결하면
아래와 같은 누적 백분율 곡선(cumulative percentage curve, 또는 ogive)이 됩니다.


데이터를 이렇게 누적 백분율 곡선으로 그려 보면 50%에 해당되는 사람은 점수가 70점 근처겠구나 또는 점수가
80점 이하인 학생은 전체의 80%를 차지겠구나와 같은 것들을 알 수 있습니다.

음... 여기까지가 이론이구요...

우리의 실제 업무 환경에서는 이 누적 백분율 곡선을 어떻게 활용할 수 있을까요??

음.. 다양하겠지만, 저같은 경우 실적 데이터를 이 Ogive 곡선(누적 백분율 곡선)으로 만들어 20대 80법칙이 성립하는 지 알아본다든지 하는데 유용하게 활용합니다.

Ogive 곡선을 그리기 위한 데이터 가공 방법은 아래 표와 같습니다. 

1) 고객 별 실적 내림차순으로 나래비 (여기서는 매출액 - 매출액 높은 고객부터 순서대로)
2) 매출액 칸 옆에 누적 매출 액 표기 (엑셀로 작업한 다면 첫번째 셀은 자기 셀 가져오고 그 다음 셀부터는 위에셀 더하기 좌측 매출액 셀로 수식을 만들면 됩니다.. ex: 4,360,000 (C3), 7,931,546 (D3+C4))
3) 누적 매출액 백분율 데이터 수식으로 완성 (해당값/Total 금액 - 개별 고객 매출액 합산한 값)
4) 등수 표기 (rank 함수 돌려서)
5) 상위 몇 퍼센터인지 표기 (등수 나누기 전체 명수)


이렇게 데이터 가공이 끝나면 이제 그래프로 그립니다.
누적 매출액 백분율 열을 전체를 선택하고 차트를 꺾은선 그래프로 선택하면 이쁘게 그려지구요.
여기서 X축 데이터를 상위 몇 퍼센트 열로 선택하면 아래와 같이 그려집니다.


이렇게 되면 매출액 데이터는 100%까지 빼곡하게 찍히게 되고 각 %지점에 해당하는 X값을 확인하면 상위 몇 퍼센트에 해당 하는 값인지 알 수 있게 됩니다. 특히, 매출액이 80% 지점의 X축 값을 확인하면 매출액 기준 상위 몇 퍼센트의 고객이 매출액의 80%를 차지 하는 지 알 수 있답니다.

저같은 경우 웹사이트 방문자 수 데이터로 테스트 했었는데 상위 40%의 고객이 방문의 80%를 차지해서, 아... 우리 사이트는 로열티 그룹이 형성이 제대로 안 돼 있구나.. 하는 것을 확인할 수 있었답니다.

이와 같이 누적 백분율 곡선 - Ogive 곡선의 개념을 활용하면 쉽게 우리 회사의 실적 데이터를 가지고 상위 몇 %의 고객이 실적의 몇 %를 차지하는 지 확인 할 수 있습니다.

 

[오뚜기의 데이터 분석 이야기는 아래와 같이 연재 중입니다~~)

1. 데이터 분석 - 시작은 변수 설계로 부터(1)[오뚜기의 데이터분석 이야기]
1. 데이터 분석 - 시작은 변수 설계로 부터(2)[오뚜기의 데이터분석 이야기]
2. 마케팅에서 조건부 확률의 의미 [오뚜기의 데이터분석 이야기]
3. 누적백분률 곡선과 20대 80 법칙[오뚜기의 데이터분석 이야기]