STUDY/DevCourse

[데브코스][데이터 분석] 데이터 기반 의사 결정

_알파카 2024. 2. 19. 21:48
728x90

< 2주차 데이터 분석 소개(2) >

2-1. 데이터 문해력 퀴즈 리뷰

생략

2-2. 데이터 기반 의사 결정(Decision Science)이란?

두 가지 형태의 데이터 기반 의사 결정이 있음

데이터란 기본적으로 과거의 기록이므로 이를 바탕으로 한 결정은 최적화에 가까움!

 

1) Data Driven Decision

2) Data Informed Decision

 

데이터에서 인사이트 찾기

: 중요 지표를 데이터 기반으로 정의하고 시각화하기

: 가설을 바탕으로 실제 데이터를 보고 확인하기 -> A/B Test

 

데이터 분석 케이스들

- 중요 지표 대시보드 만들기

- 고객 이탈률 분석: 보통 코호트(동일한 특성을 갖는 고객 그룹)  분석 -> ex) 처음으로 서비스를 시작한 날짜를 기준

- 고객 잔존률 분석: 보통 고호트 분석

- 마케팅 기여도 분석(어떤 마케팅 채널로 들어온 사람들이 얼마나 오래동안 우리 서비스를 이용하는가 등)

 

데이터 분석의 예 - 고객 이탈률

- 센트란시스코 기반 전동 스쿠터 회사에서 돈을 많이 쓰는 고객들이 2~3달 후 서비스를 그만 사용하는 현상이 발견됨

-> 어느 서비스이건 돈을 많이 쓰는 사람(VIP)들의 이탈률, 이탈 이유를 체크하는 것이 중요함

-> 할인 쿠폰을 주며 이유를 조사 해봄.

-> 이유: 센트란시스코는 땅이 좋지 않아 대부분 사람들이 걸어다니는데, 한 번 전동스쿠터를 탄 본 사람들이 비용이 많이 들어 차라리 자기의 개인 스쿠터를 타겠다고 마음을 먹음! -> 그래서 공유 스쿠터를 더 이상 이용하지 않고 개인 스쿠터를 삼

=> 스쿠터의 간편함을 모르다가 공유 스쿠터를 통해 스쿠터의 좋은점을 깨닫고 정기구매를 취소함

 

* 데이터 일을 할 때 첫 번째로 확인할 것

1) 어떤 사용자들이 계속 서비스를 사용하는가

2) 유료 고객들의 이탈률

 

데이터 분석의 예 - 고객용 대시보드

- 원격 애완동물 진료 서비스를 제공해주는 마켓플레이스

- 애완동물 주인과 수의사/동물병원을 연결

- 수의사 체인 병원들이 자기 병원들의 수의사를 등록하는 등 체인병원 사업이 됨(B2B 영업 - 체인병원과 회사의 영업)

-> 내부 매출 정보를 연동하여 수의사/동물병원용 대시보드 개발

 

데이터 분석의 예 - 마케팅 기여도 분석

- 센프란시스코 기반 화장 스타트업인 튤립의 예

: 다양한 광고 마케팅을 디지털 미디어 기반으로 수행 / 이를 빠르게 분석하여 어떤 형태 마케팅이 효과적인지 파악

-> 주로 사람이 죽으면 검색을 통해 화장 회사를 정하므로, 특정 검색어 기반 마케팅을 실시함

-> 다양한 매체를 통해 마케팅을 실시하고 효율적인 마케팅을 찾음

==> 디지털 마케팅의 핵심!

==> 디지털 마케팅은 기본적으로 데이터 중심으로 돌아감

 

데이터 분석의 예 - 고객 불만과 이탈률간의 관계

일반적인 생각: 불만이 많은 사람들이 서비스 이탈률이 높을 것이다! 

그러나, 서비스 관련해서 문제가 있다고 전화하는 고객들의 이탈률을 확인해보면..

-> 항상 일반적인 생각이 맞지 않음. 오히려 서비스에 관심이 많은 사람들이 직접적으로 불만을 표출함

 

데이터 분석가의 역할

- 비즈니스 인텔리전스를 책임짐

   - 중요 지표를 정의하고 이를 대시보드 형태로 시각화(태블로, 룩커, 수퍼셋 등..)

   - 비즈니스 도메인에 대한 깊은 지식 필요

 

- 회사 내 다른 팀들의 데이터 관련 질문 대답

   - 임원들이나 팀 리드들이 데이터 기반 결정을 내릴 수 있도록 도와줌

   - 질문들이 굉장히 많고 반복적이기에 어떻게 셀프서비스로 만들 수 있느냐가 관건

 

데이터 분석가의 스킬

- SQL / Python

- 데이터 모델링과 ELT

- 통계적 지식
- A/B 테스트 지식과 경험

- 지표 정의와 대시보드(Tableau, Looker, Power BI, ...)

- 비즈니스 도메인에 관한 깊은 지식 -> 일을 하면 자연스럽게 습득됨!

 

데이터 분석가의 딜레마

- 보통 많은 수의 긴급한 데이터 관련 질문들에 시달림

- 많은 경우 현업팀에 소속되기도 함( ex. 데이터 분석가이지만 마케팅 조직에 포함되어 있다면, 커리어가 불분명해짐)

-> 데이터 분석가는 조직구조가 더 중요함!

 

 

2-3. 조직 구조의 중요성과 트렌드

데이터 팀의 조직 구조

1. 중앙 집중 구조

: 모든 데이터 팀이 하나의 팀에 속함

- 일의 우선 순위는 중앙 데이터 팀이 최종 결정

- 데이터 팀원들간의 지식과 경험의 공유가 쉬워지고 커리어 경로가 더 잘 보임. 데이터 팀간의 협업 쉬움. 만족도 상승

- 그러나 현업부서들의 만족도는 상대적으로 떨어짐. 

-> 현업 부서들의 요청을 상대적으로 덜 고려하여 우선순위를 결정하기 때문. 응답속도도 느림

 

 

2. 분산 구조

: 데이터 분석가, 과학자가 현업 조직에 포함되어 있고, 현업 조직 밑에서 일을 함. 

- 일의 우선 순위는 각 팀별로 결정

- 데이터 일을 하는 사람들간의 지식/경험의 공유가 힘들고 데이터 인프라나 데이터의 공유가 힘들어짐 -> 중복된 일을 하는 경우가 많아짐 -> 인프라 비용 증가 -> 팀별로 데이터 인력의 부족함을 느껴 쓸데없이 사람을 많이 뽑게 됨

- 현업부서들의 만족도는 처음에는 좋지만 많은 수의 데이터 팀원들이 회사를 그만두게 됨(상대적 박탈감)

 

<분산 구조는 2가지 경우 존재>

- 기존 중앙 집중 구조에서 조직 변경을 통해 분산 구조화

- 자생적으로 혹은 인수합병 등을 통해 조직별 데이터팀 존재

 

==> 발생하는 문제?

: 서로 다른 데이터 전략

: 회사 전체로 볼 때 불완전한 데이터 셋(데이터 공유를 못할 확률 높음)

: 중복투자

: 보안/규제 관련 이슈 발생 가능성

 

==> 하지만 이는 어쩔 수 없는 트렌드로 보임(팀 내부에서 데이터 능력을 키운 사람을 채택함)

: 클라우드 이전이 도움이 됨

 

 

3. 하이브리드 구조

: 중앙집중과 분산구조의 하이브리드 방식

: 모든 데이터 팀이 하나의 팀(소속)이지만, 일을 할 때는 파견 형태로 현업 팀과 긴밀하게 일을 함

- 가장 이상적인 조직 구조

- 데이터 팀원들은 일부는 중앙에서 인프라적인 일을 수행하고 나머지는 현업팀에서 작업

- 중소 규모 회사에서는 기능/목적 조직구조의 형태로 데이터팀 안에서 커리어 경로를 만들 수 있음

 

===> 회사의 크기에 따라 데이터 조직의 형태가 아주 다름!

: 회사가 아주 커지면 회사 전체 데이터 웨어하우스의 구성은 불가능해짐

 

 

데이터 매쉬 (Data Mesh)

: 조직별로 데이터 시스템을 별도로 구성해 속도를 늘리고 효율을 높이되,

각 조직이 갖는 데이터가 무엇인지 카탈로그를 만들어 공유&조회를 쉽게함

- 데이터 메쉬는 중앙 관리와 표준을 염두에 둔 분산 데이터 아키텍쳐

 

-> 데이터를 하나의 중앙 조직에서 모두 관리하게 하는 것은 큰 조직일수록 불가능하다

-> 이를 인정하고 각 팀이 알아서 데이터를 관리할 수 있는 형태로 하자는 표준

=> 데이터 문해력 및 성숙도가 있는 조직에서 가능

* 데이터 카탈로그: 각 조직이 갖는 데이터를 작성해둔 것

 

 

2-4. 데이터 조직의 일주일 살펴보기

데이터 팀이 무슨 일을 하는지 한 주를 살펴보자!

애자일 개발방법론이란?

- 세상이 빠르게 변화하면서 미리 SW의 요구사항을 알 수 없으며, 계속 바뀜. 

=> 폭포수 모델(Waterfall Model)(한 바퀴만 도는 개발)은 좋지 않음

 

애자일 개발 방법론의 특징

- 짧은 사이클(보통 1-3주)(스프린트(Sprint)를 반복해서 하나를 만들어냄

- 매 스프린트마다 구체적으로 작은 기능을 몇 개 구현하여 그 기능을 바로 사용함

- 스프린트: 플래닝 미팅(무엇을 할 것인지) -> 매일 스탠드업 미팅(매일 정해진 시간에 모여 짧게 경과보고) -> 데모/회고 미팅(각자 어떤 일을 했는지 데모, 성과 공유, 토론)

- 데이터 팀도 애자일 방법론을 사용하는 것이 일반적

 

* 자주 쓰는 애자일/스크럼 보드

- JIRA

- Swit, ClickUP 등

 

월요일

: 스프린트가 새로 시작하는 월요일!

: 데모/회고 미팅 -> 지난 스프린트 리뷰

: 플래닝 미팅 -> 새로운 한 주 계획(인력, 한 엔지니어는 하루 5시간쯤 일한다고 가정, 30%정보는 유지보수에 사용, 특히 ETL(데이터 수집 및 적재) 관련 이슈와 다양한 데이터 관련 질문을 맡을 사람 별도 지정)

 

화요일

: 매일 스탠드업 미팅

: 5분정도.. 어제 무슨 일 했는가, 오늘 무슨 일 하는가, 생긴 문제 등..

: 다양한 미팅들

- 내부 팀원들과의 미팅

- 다른 팀과의 sync-up 미팅

 

수요일/목요일

: 매일 스탠드업 미팅

-> 줌 혹은 슬랙 등으로 대신하기도 함

: 중요 지표 리뷰 미팅

-> 대시보드를 보면서 중요 지표에 어떤 변화가 있는지 살펴봄

: 머신러닝 모델 개발 리뷰 미팅

-> 성능 리뷰, A/B Test 등

 

금요일

: 매일 스탠드업 미팅

: 데이터팀 주간 스태프 미팅

-> 중요 지표와 회사/팀 목표 리뷰

-> 채용과 관련된 상황 점검

-> 주간 사고 리뷰 (필요하다면 사후 점검 미팅 실행 -> 재발 방지)

-> 메인 프로젝트 리뷰

-> 팀/개인 업데이트

 

 

2-5. 좋은 지표(KPI)란?

KPI(Key Performance Indicator)란?

- 지표들 중 일부

- 조직내에서 달성하고자 하는 중요한 목표

- 명확한 정의가 중요함 -> 지표 사전이 필요

- KPI 수는 적을수록 좋음

- 잘 정의된 KPI -> 현재 상황을 알고 더 나은 계획 가능

 

 

지표(Metrix)란?

- 지표가 KPI보다 더 큰 개념

- 지표와 KPI의 차이점은 중요도. 중요도에 따라 KPI일수도, 일반 지표일수도 있음!

- 정량적인 성과 목표를 의미함

- 데이터 문해력의 시작점

 

 

KPI 기준

  • Represent delivery of real value (KPI가 어떠한 가치를 나타내는 것이여야함)
  • Captures recurring value (계속해서 재발생하는 가치인지..)
    • MRR (Monthly Recurring Revenue) (반복 구매를 통해 나온 매출) vs. Total revenue (총 매출액)
  • Lagging indicator (후행지표) (모든 일이 일어나고 나서 최종적인 결과를 보여주는 지표 / 매출액)
    • vs. Leading indicator (선행지표) (영업 파이프라인에서 고민하고 있는 고객 수)
    • Registered users vs. Paid users
  • Usable feedback mechanism (서비스를 사용하는 사람의 수 -> 의미있는 서비스인지 아닌지 피드백 가능)
    • Used for decision making: WAU (위클리 사용 유저) vs. MAU (먼슬리 사용 유저)

 

좋은 지표의 특성

  • 3A (Accessible, Actionable, Auditable)
  • 쉽게 볼 수 있어야 함 (Accessible)
    • 지표를 보는 것이 쉬어야함 -> 시각화툴이 바로 여기서 도움이 됨
  • 실행가능한 통찰력이 제공되어야 함 (Actionable)
    • 지표 등락의 의미가 분명해야함
  • 감사가 가능해야 함 (Auditable)
    • 지표 계산이 제대로 되었는지 검증이 가능해야함
    • 데이터 기반이어야 가능

 

Next Dashboard Fallacy

- 의사결정을 잘 못하는 사람이 팀의 리더라면..

기존 지표 기반 결정을 못하고 대시보드를 계속 만들게 됨

- 완벽한 결정을 위해 계속해서 대시보드는 만드도록 요청함

-> 지표의 수, 대시보드의 수는 적을수록 좋음

 

 

2-6. KPI와 선행/후행 지표 예

Controllable Input Metrics vs Output Metrics

- Working Backwards라는 책의 6장에 있는 내용 : 아마존이 어떻게 일을 하는지 나타내는 책

- 입력에 초점을 맞춰서 출력에 긍정적인 영향을 끼쳐라 (제품 출시 때 나타날 효과를 먼저 생각하고 제품을 개발함)

: 결과에 영향을 주는 인풋(선행지표)을 잘 관리 해야한다! 

 

: 인풋(input): 입력, 투입물 -> 선행지표

- 아웃풋 지표를 움직이는 지표. 직접 통제 가능한 지표

 

: 아웃풋(output): 출력, 결과물 -> 후행지표(KPI)

- 인풋 지표의 결과물. 직접 통제 불가능한 것

 

 

KPI와 선행 지표 예

- 매출액 : 기존 고객매출 vs 새로운 고객매출

- 매출 = 가격 * 판매량

: 가격이 고정되었다는 전제하에 판매량을 늘릴 방법을 찾아야함. 

 

- 판매량에 영향을 주는 선행지표(인풋 지표)는?

: 영업 건수, 온라인 강의 수, 사이트 방문자 수 등.. 비즈니스에 따라 다름

=> 선행지표를 잘 파악하는 것이 매우 중요

 

 

두 가지 중요한 KPI

- 매출 vs. 서비스 사용 고객수 (DAU(일간), WAU(주간), MAU(월간))

--> 비즈니스에 따라 매출이 중요한지, 서비스 사용 고객수가 중요한지 등이 다름! 

- 보통 매출이 훨씬 더 중요한 지표

: 단, 새 고객의 매출과 기존 고객의 매출을 따로 볼 것

- 네트워크 현상이 중요한 도메인에서는 "서비스 사용 고객수" 도 중요한 지표

 

 

2-7. 시각화 대시보드 툴 소개

시각화 툴이란?

  • 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 함 -> 사람들이 중요한 정보를 쉽게 볼 수 있게 하는 툴
  • KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴(시간순)
  • 결국은 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 함
    • 데이터 기반 결정 (Data-Driven Decision)
    • 데이터 참고 결정 (Data-Informed Decision)
  • 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌

 

어떤 툴들이 존재하나?

- Excel, Google Spreadsheet: 사실상 가장 많이 쓰이는 시각화 툴

: 누구나 사용하기 쉽고 익숙함

- Python: 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합

: 다양한 시각화 라이브러리 사용(EDA)

: 코딩 사용 필수. 시작이 어려움

 

- Looker (구글)

: 구글 클라우드 서비스(구글이 2019년 6월에 $2.6B에 인수)

: 2012년 미국 캘리포니아 산타크루즈에서 시작

 

- LookML이 자체언어(SQL과 비슷)로 데이터 모델을 만드는 것으로 시작

-> 누가 만든 대시보드를 사용하기 쉬움( 셀프서비스 형태의 대시보드를 만들기 쉬움 )

- 내부 고객뿐만 아니라 외부 고객을 위한 대시보드 작성가능

- 고가의 라이센스 정책을 갖고 있으나 굉장히 다양한 기능 제공(무료버전 없음)

단점: 구글에 인수된 후 서비스의 발전속도가 안좋아짐. 

 

- Tableau (세일즈포스)

: 2002년 미국 캘리포니아 마운틴뷰에서 시작하여 2013년 상장

: 세일즈포스가 2019년 6월에 $15.7B에 인수함

 

- 다양한 제품군 보유. 일부는 사용이 무료(웹/데스크탑 버전)

- 제대로 배우려면 시간이 꽤 필요하지만 강력한 대시보드 작성가능

- Looker가 뜨기 전까지 오랫동안 마켓 리더로 군림

 

- Power BI (마이크로소프트)

: 단점 - 대시보드를 만들 수 있는 환경이 마이크로소프트만 가능함. 웹, 맥 불가

- Apache Superset (오픈소스)

: Airflow를 만든 사람이 만든 오픈소스

- Mode Analytics, ReDash

- Google Studio

: 구글 클라우드에 원래 있던 시각화 툴 -> Looker로 인해 요즘은 잘 사용 안함 / 기능이 조금 부족함

- AWS Quicksight

: 기능이 조금 부족함

 

 

어떤 시각화 툴을 선택할 것인가?

- Looker 혹은 Tableau가 가장 많이 사용되는 추세

: 두 툴 모두 처음 배우는데 시간이 필요함

: Tableau의 가격이 더 싸고 투명하며 무료

 

- 중요한 포인트는 셀프서비스 대시보드를 만드는 것

: 안 그러면 매번 사람의 노동이 필요해짐

-> 60-70%의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공

: 또한 사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있음

-> 데이터 민주화 (Data Democratization), 데이터 탈중앙화 (Data Decentralization)

-> 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 필요한 이유가 됨!

: 이런 측면에서는 Looker가 더 좋은 선택이지만 가격이 상당히 비쌈

 

 

 

2-8. 실습: 지표 정의하고 차트 만들어보기

Tableau 제품군 소개 (1)

- Tableau Desktop

: 코어 제품으로 대시보드를 만들 수 있는 저작환경으로 맥용과 윈도우용 제공(웹 브라우저도 가능)

- Tableau Server

-> 만든 대시보드를 호스팅해주는 환경

: 엔터프라이즈 레벨 플랫폼으로 사용자들간에 대시보드, 웍북, 데이터 소스등의 공유와 웹/앱으로 접근 가능

: 중앙 플랫폼이기에 데이터 거버넌스, 보안 등을 제공

: 소프트웨어를 구매하여 직접 설치하고 운영 필요

- Tableau Online

: 클라우드 버전의 Tableau Server. 클라우드이기에 직접 설치하고 운영이 필요하지 않다는 장점 존재

: 주로 Tableau online 버전 사용

- Tableau Prep

: 데이터를 대시보드에서 사용하긴 전에 다양한 데이터 변환과 분석(EDA)등을 코딩없이 하는 데이터 전처리 툴

: Tableau Desktop, Tableau Server와 연동하여 사용되는 것이 일반적

- Tableau Public

: 기능에 있어 제약이 있는 Tableau의 무료 버전으로 학습을 위한 용도로 많이 사용됨

: 이걸 이번 강의에서 사용해볼 예정

- Tableau Mobile

: iOS나 안드로이드 동작 앱으로 Tableau 대시보드 뷰어 용도(모바일 환경)로 사용됨

 

 

Tableau Public 소개

- 장점은 무료라는 것!

: Tableau의 기능을 학습하는 용도로 사용 가능

: 보통 Desktop 버전을 다운로드 받아 사용하는 것이 일반적

 

- 단점은 추출된 데이터 원본(CSV 파일)만 데이터 소스로 지원

: 태블로 데스크탑에서는 여러가지 형태 가능

: 데이터에 대한 라이브 연결은 지원하지 않음

: 최대 천5백만개의 레코드를 읽어올 수 있음 -> 기능상 제약은 없음. 데이터 소스의 제약만 존재

 

- 내가 만든 대시보드는 기본으로 모두에게 공개가 되기 때문에 포트폴리오로 사용 가능(장점 겸 단점)

 

Tableau Public 설치

1. https://public.tableau.com/en-us/s/ 방문

2. 자신의 계정 생성

   a. “Sign-in”을 클릭

3. 데스크탑 버전 다운로드 (https://public.tableau.com/app/learn/how-to-videos)

   a. https://public.tableau.com/s/download

   b. 앞서 언급한 단점이 존재하지만 학습용도로는 충분

 

전체 과정 설명

1. user_session_summary.csv 파일을 스쿨 페이지에서 다운로드 받을 것

   a. user_id, ts, channel, session_id

2. 이를 Tableau Public으로 업로드

3. 다음으로 멀티라인 MAU 차트 생성

4. 이를 가지고 대시보드 생성

5. 최종적으로 대시보드 저장 -> 하나의 차트로 구성됨

 

* 태블로에서의 대시보드 : 차트의 집합

* 태블로에서의 차트 = 시트

728x90