1. 데이터 분석 - 시작은 변수 설계로 부터(1) [오뚜기의 데이터분석 이야기]
웹 바닥에서 열심히 로그분석하고 설문지 분석하다가
정식으로 데이터 분석 업무를 해 보겠다고 Analytics 바닥에 뛰어들은지 약 2년이 되어가는 듯 합니다.
짧은 시간이지만, CRM 바닥과 리서치 바닥을 두루 훑고 있네요.
비전문가로서 고군분투하는 모습을 기록에 남기고자 [오뚜기의 데이터 분석 이야기]를 시작합니다.
-------------------------------------------------------------------------------------------------
데이터 분석의 첫 단추는 무엇일까요?
고매한 통계학 박사들이나 분석 전문가들의 의견이 어떨지는 모르겠지만,
제가 현업에 부딪치면서 느낀 것은 여기 저기 산재해 있는 Fact 들과 지식들을
측정 가능한 형태, 즉, 디지털 형태로 전환하는 것이었습니다.
저에게 있어 이 과정은 "변수 기획 및 설계"로 집약되더군요.
데이터 분석 전문가가 제일 먼저 할 일은 그 바닥의 베테랑들과의 인터뷰를 통해,
그리고, 그 회사에 이미 산재해 있는 데이터들을 이합집산하여
예측에 유용하거나, 현상을 제대로 설명할 수 있는
유의미한 변수를 많이 생산해 내는 것이지요.
그런데, 이 과정이 생각보다 쉽지 않습니다. 그 바닥의 전문가 들의 머리 속에 있는 관념들을 측정 가능한
변수로 만드는데는 변수 자체에 대한 지식이 필요하거든요.
하여, 변수 기획 및 설계에 필요한 기초적인 것들을 몇가지 정리해 보도록 하겠습니다.
1. 데이터의 유형
1) 범주 형 데이터의 종류
Nominal (명목형) : 구분 이름을 붙어 있으나 서열이나 순서는 존재하지 않는 데이터입니다.
ex: 남, 여
Ordinal (서열형) : 순서는 있으되 차이는 알 수 없는 데이터입니다.
여기서 차이는 수치로 표현되는 차이로 저는 이해를 했습니다. ex) 금, 은, 동
Interval (구간형) : 순서와 수적인 차이를 알 수 있는 데이터입니다. ex) 수, 우, 미, 양, 가
데이터를 분석할 때 가능한 모든 data 를 interval 화 하는게 좋다고 합니다. (데이터 마이닝 경험이 많은
전문가들의 조언), 즉, nominal 데이터도 interval 로 변경시키면 더 좋은 결과
를 얻을 수 있다고 하네요.
단, 제가 변수 만들기 실무를 해 보니 level 을 정하는 게 정말 쉽지 않더군요.
어디서 어디까지 A등급을 주고, 어디서 어디까지 B등급을 주어야 할까요? 이 등급을 가르는 기준을 level
이라고 하는데, 이 level 을 잘 만들려면 그래프를 그려서 전체 분포 모양도 보아야 되고 암튼 데이터를 이래
저래 조물딱 거려야 최적의 레벨값 설정이 가능하더라.. 는게 저의 경험 담입니다.
제가 아는 CRM전문가는 이렇게까지 말하더군요.
"통계를 잘하는 것은 interval 로 얼마나 잘 만드느냐의 문제이다."
Rational (비율형) : 우리가 일상 생활에서 흔히 볼 수 있는 측정 기준에 의해 측정한 값들입니다.
측정 단위로 표현된 측정값... 저는 이렇게 이해하고 있습니다.
ex) kg, cm, 매출액, 방문일수
Categorical (범주형) : 데이터들을 어떤 분류 기준에 의거 분류했을 때 범주 형 데이터라고 부릅니다.
ex) 남자이면서, 도곡동 살면서, 평당 금액이 얼마인 아파트에 살면서, 4인 가족인 사람 --> 이 사람들만
모아서 특정 cell 에 넣고 분석을 하는 경우
범주형 데이터는 고객 segmentation 에 유용한 개념이 되겠지요 ^^
2) 수치 형 데이터의 종류
Continuous (연속형) : 연속형은 데이터가 가질 수 있는 값이 무한 한(definite)인 경우를 일컫습니다.
구간을 아무리 나누어도 구간 사이에 값이 발생하는 것이지요. ex) 거리, 무게, 물가지수
Discrete (이산형) : 이산형 데이터는 셀 수 있는 데이터입니다. 당연 유한하겠지요.
ex) 주사위를 던졌을 때 나올 수 있는 숫자의 개수가 정해져 있을 때, 주머니에 파란공 3개, 빨간 공 2개 있을
때 파란공이 나올 수 있는 가능성의 개수 등
음.. 변수 기획을 하기 위해 데이터의 유형에 대해 먼저 살펴 보았는데요.
우리 주변에 어떤 데이터들이 있고 이것을 어떻게 변수화 할 수 있는지도 살펴보아야 할 듯 한데..
오늘은 시간이... ㅎ 다음 편에 이어서 하겠습니다..
[오뚜기의 데이터 분석 이야기는 아래와 같이 연재 중입니다~~)
1. 데이터 분석 - 시작은 변수 설계로 부터(1)[오뚜기의 데이터분석 이야기]
1. 데이터 분석 - 시작은 변수 설계로 부터(2)[오뚜기의 데이터분석 이야기]
2. 마케팅에서 조건부 확률의 의미 [오뚜기의 데이터분석 이야기]
3. 누적백분률 곡선과 20대 80 법칙[오뚜기의 데이터분석 이야기]