< 2주차 데이터 분석 소개(2) >
2-1. 데이터 문해력 퀴즈 리뷰
생략
2-2. 데이터 기반 의사 결정(Decision Science)이란?
두 가지 형태의 데이터 기반 의사 결정이 있음
데이터란 기본적으로 과거의 기록이므로 이를 바탕으로 한 결정은 최적화에 가까움!
1) Data Driven Decision
2) Data Informed Decision
데이터에서 인사이트 찾기
: 중요 지표를 데이터 기반으로 정의하고 시각화하기
: 가설을 바탕으로 실제 데이터를 보고 확인하기 -> A/B Test
데이터 분석 케이스들
- 중요 지표 대시보드 만들기
- 고객 이탈률 분석: 보통 코호트(동일한 특성을 갖는 고객 그룹) 분석 -> ex) 처음으로 서비스를 시작한 날짜를 기준
- 고객 잔존률 분석: 보통 고호트 분석
- 마케팅 기여도 분석(어떤 마케팅 채널로 들어온 사람들이 얼마나 오래동안 우리 서비스를 이용하는가 등)
데이터 분석의 예 - 고객 이탈률
- 센트란시스코 기반 전동 스쿠터 회사에서 돈을 많이 쓰는 고객들이 2~3달 후 서비스를 그만 사용하는 현상이 발견됨
-> 어느 서비스이건 돈을 많이 쓰는 사람(VIP)들의 이탈률, 이탈 이유를 체크하는 것이 중요함
-> 할인 쿠폰을 주며 이유를 조사 해봄.
-> 이유: 센트란시스코는 땅이 좋지 않아 대부분 사람들이 걸어다니는데, 한 번 전동스쿠터를 탄 본 사람들이 비용이 많이 들어 차라리 자기의 개인 스쿠터를 타겠다고 마음을 먹음! -> 그래서 공유 스쿠터를 더 이상 이용하지 않고 개인 스쿠터를 삼
=> 스쿠터의 간편함을 모르다가 공유 스쿠터를 통해 스쿠터의 좋은점을 깨닫고 정기구매를 취소함
* 데이터 일을 할 때 첫 번째로 확인할 것
1) 어떤 사용자들이 계속 서비스를 사용하는가
2) 유료 고객들의 이탈률
데이터 분석의 예 - 고객용 대시보드
- 원격 애완동물 진료 서비스를 제공해주는 마켓플레이스
- 애완동물 주인과 수의사/동물병원을 연결
- 수의사 체인 병원들이 자기 병원들의 수의사를 등록하는 등 체인병원 사업이 됨(B2B 영업 - 체인병원과 회사의 영업)
-> 내부 매출 정보를 연동하여 수의사/동물병원용 대시보드 개발
데이터 분석의 예 - 마케팅 기여도 분석
- 센프란시스코 기반 화장 스타트업인 튤립의 예
: 다양한 광고 마케팅을 디지털 미디어 기반으로 수행 / 이를 빠르게 분석하여 어떤 형태 마케팅이 효과적인지 파악
-> 주로 사람이 죽으면 검색을 통해 화장 회사를 정하므로, 특정 검색어 기반 마케팅을 실시함
-> 다양한 매체를 통해 마케팅을 실시하고 효율적인 마케팅을 찾음
==> 디지털 마케팅의 핵심!
==> 디지털 마케팅은 기본적으로 데이터 중심으로 돌아감
데이터 분석의 예 - 고객 불만과 이탈률간의 관계
일반적인 생각: 불만이 많은 사람들이 서비스 이탈률이 높을 것이다!
그러나, 서비스 관련해서 문제가 있다고 전화하는 고객들의 이탈률을 확인해보면..
-> 항상 일반적인 생각이 맞지 않음. 오히려 서비스에 관심이 많은 사람들이 직접적으로 불만을 표출함
데이터 분석가의 역할
- 비즈니스 인텔리전스를 책임짐
- 중요 지표를 정의하고 이를 대시보드 형태로 시각화(태블로, 룩커, 수퍼셋 등..)
- 비즈니스 도메인에 대한 깊은 지식 필요
- 회사 내 다른 팀들의 데이터 관련 질문 대답
- 임원들이나 팀 리드들이 데이터 기반 결정을 내릴 수 있도록 도와줌
- 질문들이 굉장히 많고 반복적이기에 어떻게 셀프서비스로 만들 수 있느냐가 관건
데이터 분석가의 스킬
- SQL / Python
- 데이터 모델링과 ELT
- 통계적 지식
- A/B 테스트 지식과 경험
- 지표 정의와 대시보드(Tableau, Looker, Power BI, ...)
- 비즈니스 도메인에 관한 깊은 지식 -> 일을 하면 자연스럽게 습득됨!
데이터 분석가의 딜레마
- 보통 많은 수의 긴급한 데이터 관련 질문들에 시달림
- 많은 경우 현업팀에 소속되기도 함( ex. 데이터 분석가이지만 마케팅 조직에 포함되어 있다면, 커리어가 불분명해짐)
-> 데이터 분석가는 조직구조가 더 중요함!
2-3. 조직 구조의 중요성과 트렌드
데이터 팀의 조직 구조
1. 중앙 집중 구조
: 모든 데이터 팀이 하나의 팀에 속함
- 일의 우선 순위는 중앙 데이터 팀이 최종 결정
- 데이터 팀원들간의 지식과 경험의 공유가 쉬워지고 커리어 경로가 더 잘 보임. 데이터 팀간의 협업 쉬움. 만족도 상승
- 그러나 현업부서들의 만족도는 상대적으로 떨어짐.
-> 현업 부서들의 요청을 상대적으로 덜 고려하여 우선순위를 결정하기 때문. 응답속도도 느림
2. 분산 구조
: 데이터 분석가, 과학자가 현업 조직에 포함되어 있고, 현업 조직 밑에서 일을 함.
- 일의 우선 순위는 각 팀별로 결정
- 데이터 일을 하는 사람들간의 지식/경험의 공유가 힘들고 데이터 인프라나 데이터의 공유가 힘들어짐 -> 중복된 일을 하는 경우가 많아짐 -> 인프라 비용 증가 -> 팀별로 데이터 인력의 부족함을 느껴 쓸데없이 사람을 많이 뽑게 됨
- 현업부서들의 만족도는 처음에는 좋지만 많은 수의 데이터 팀원들이 회사를 그만두게 됨(상대적 박탈감)
<분산 구조는 2가지 경우 존재>
- 기존 중앙 집중 구조에서 조직 변경을 통해 분산 구조화
- 자생적으로 혹은 인수합병 등을 통해 조직별 데이터팀 존재
==> 발생하는 문제?
: 서로 다른 데이터 전략
: 회사 전체로 볼 때 불완전한 데이터 셋(데이터 공유를 못할 확률 높음)
: 중복투자
: 보안/규제 관련 이슈 발생 가능성
==> 하지만 이는 어쩔 수 없는 트렌드로 보임(팀 내부에서 데이터 능력을 키운 사람을 채택함)
: 클라우드 이전이 도움이 됨
3. 하이브리드 구조
: 중앙집중과 분산구조의 하이브리드 방식
: 모든 데이터 팀이 하나의 팀(소속)이지만, 일을 할 때는 파견 형태로 현업 팀과 긴밀하게 일을 함
- 가장 이상적인 조직 구조
- 데이터 팀원들은 일부는 중앙에서 인프라적인 일을 수행하고 나머지는 현업팀에서 작업
- 중소 규모 회사에서는 기능/목적 조직구조의 형태로 데이터팀 안에서 커리어 경로를 만들 수 있음
===> 회사의 크기에 따라 데이터 조직의 형태가 아주 다름!
: 회사가 아주 커지면 회사 전체 데이터 웨어하우스의 구성은 불가능해짐
데이터 매쉬 (Data Mesh)
: 조직별로 데이터 시스템을 별도로 구성해 속도를 늘리고 효율을 높이되,
각 조직이 갖는 데이터가 무엇인지 카탈로그를 만들어 공유&조회를 쉽게함
- 데이터 메쉬는 중앙 관리와 표준을 염두에 둔 분산 데이터 아키텍쳐
-> 데이터를 하나의 중앙 조직에서 모두 관리하게 하는 것은 큰 조직일수록 불가능하다
-> 이를 인정하고 각 팀이 알아서 데이터를 관리할 수 있는 형태로 하자는 표준
=> 데이터 문해력 및 성숙도가 있는 조직에서 가능
* 데이터 카탈로그: 각 조직이 갖는 데이터를 작성해둔 것
2-4. 데이터 조직의 일주일 살펴보기
데이터 팀이 무슨 일을 하는지 한 주를 살펴보자!
애자일 개발방법론이란?
- 세상이 빠르게 변화하면서 미리 SW의 요구사항을 알 수 없으며, 계속 바뀜.
=> 폭포수 모델(Waterfall Model)(한 바퀴만 도는 개발)은 좋지 않음
애자일 개발 방법론의 특징
- 짧은 사이클(보통 1-3주)(스프린트(Sprint)를 반복해서 하나를 만들어냄
- 매 스프린트마다 구체적으로 작은 기능을 몇 개 구현하여 그 기능을 바로 사용함
- 스프린트: 플래닝 미팅(무엇을 할 것인지) -> 매일 스탠드업 미팅(매일 정해진 시간에 모여 짧게 경과보고) -> 데모/회고 미팅(각자 어떤 일을 했는지 데모, 성과 공유, 토론)
- 데이터 팀도 애자일 방법론을 사용하는 것이 일반적
* 자주 쓰는 애자일/스크럼 보드
- JIRA
- Swit, ClickUP 등
월요일
: 스프린트가 새로 시작하는 월요일!
: 데모/회고 미팅 -> 지난 스프린트 리뷰
: 플래닝 미팅 -> 새로운 한 주 계획(인력, 한 엔지니어는 하루 5시간쯤 일한다고 가정, 30%정보는 유지보수에 사용, 특히 ETL(데이터 수집 및 적재) 관련 이슈와 다양한 데이터 관련 질문을 맡을 사람 별도 지정)
화요일
: 매일 스탠드업 미팅
: 5분정도.. 어제 무슨 일 했는가, 오늘 무슨 일 하는가, 생긴 문제 등..
: 다양한 미팅들
- 내부 팀원들과의 미팅
- 다른 팀과의 sync-up 미팅
수요일/목요일
: 매일 스탠드업 미팅
-> 줌 혹은 슬랙 등으로 대신하기도 함
: 중요 지표 리뷰 미팅
-> 대시보드를 보면서 중요 지표에 어떤 변화가 있는지 살펴봄
: 머신러닝 모델 개발 리뷰 미팅
-> 성능 리뷰, A/B Test 등
금요일
: 매일 스탠드업 미팅
: 데이터팀 주간 스태프 미팅
-> 중요 지표와 회사/팀 목표 리뷰
-> 채용과 관련된 상황 점검
-> 주간 사고 리뷰 (필요하다면 사후 점검 미팅 실행 -> 재발 방지)
-> 메인 프로젝트 리뷰
-> 팀/개인 업데이트
2-5. 좋은 지표(KPI)란?
KPI(Key Performance Indicator)란?
- 지표들 중 일부
- 조직내에서 달성하고자 하는 중요한 목표
- 명확한 정의가 중요함 -> 지표 사전이 필요
- KPI 수는 적을수록 좋음
- 잘 정의된 KPI -> 현재 상황을 알고 더 나은 계획 가능
지표(Metrix)란?
- 지표가 KPI보다 더 큰 개념
- 지표와 KPI의 차이점은 중요도. 중요도에 따라 KPI일수도, 일반 지표일수도 있음!
- 정량적인 성과 목표를 의미함
- 데이터 문해력의 시작점
KPI 기준
- Represent delivery of real value (KPI가 어떠한 가치를 나타내는 것이여야함)
- Captures recurring value (계속해서 재발생하는 가치인지..)
- MRR (Monthly Recurring Revenue) (반복 구매를 통해 나온 매출) vs. Total revenue (총 매출액)
- Lagging indicator (후행지표) (모든 일이 일어나고 나서 최종적인 결과를 보여주는 지표 / 매출액)
- vs. Leading indicator (선행지표) (영업 파이프라인에서 고민하고 있는 고객 수)
- Registered users vs. Paid users
- Usable feedback mechanism (서비스를 사용하는 사람의 수 -> 의미있는 서비스인지 아닌지 피드백 가능)
- Used for decision making: WAU (위클리 사용 유저) vs. MAU (먼슬리 사용 유저)
좋은 지표의 특성
- 3A (Accessible, Actionable, Auditable)
- 쉽게 볼 수 있어야 함 (Accessible)
- 지표를 보는 것이 쉬어야함 -> 시각화툴이 바로 여기서 도움이 됨
- 실행가능한 통찰력이 제공되어야 함 (Actionable)
- 지표 등락의 의미가 분명해야함
- 감사가 가능해야 함 (Auditable)
- 지표 계산이 제대로 되었는지 검증이 가능해야함
- 데이터 기반이어야 가능
Next Dashboard Fallacy
- 의사결정을 잘 못하는 사람이 팀의 리더라면..
기존 지표 기반 결정을 못하고 대시보드를 계속 만들게 됨
- 완벽한 결정을 위해 계속해서 대시보드는 만드도록 요청함
-> 지표의 수, 대시보드의 수는 적을수록 좋음
2-6. KPI와 선행/후행 지표 예
Controllable Input Metrics vs Output Metrics
- Working Backwards라는 책의 6장에 있는 내용 : 아마존이 어떻게 일을 하는지 나타내는 책
- 입력에 초점을 맞춰서 출력에 긍정적인 영향을 끼쳐라 (제품 출시 때 나타날 효과를 먼저 생각하고 제품을 개발함)
: 결과에 영향을 주는 인풋(선행지표)을 잘 관리 해야한다!
: 인풋(input): 입력, 투입물 -> 선행지표
- 아웃풋 지표를 움직이는 지표. 직접 통제 가능한 지표
: 아웃풋(output): 출력, 결과물 -> 후행지표(KPI)
- 인풋 지표의 결과물. 직접 통제 불가능한 것
KPI와 선행 지표 예
- 매출액 : 기존 고객매출 vs 새로운 고객매출
- 매출 = 가격 * 판매량
: 가격이 고정되었다는 전제하에 판매량을 늘릴 방법을 찾아야함.
- 판매량에 영향을 주는 선행지표(인풋 지표)는?
: 영업 건수, 온라인 강의 수, 사이트 방문자 수 등.. 비즈니스에 따라 다름
=> 선행지표를 잘 파악하는 것이 매우 중요
두 가지 중요한 KPI
- 매출 vs. 서비스 사용 고객수 (DAU(일간), WAU(주간), MAU(월간))
--> 비즈니스에 따라 매출이 중요한지, 서비스 사용 고객수가 중요한지 등이 다름!
- 보통 매출이 훨씬 더 중요한 지표
: 단, 새 고객의 매출과 기존 고객의 매출을 따로 볼 것
- 네트워크 현상이 중요한 도메인에서는 "서비스 사용 고객수" 도 중요한 지표
2-7. 시각화 대시보드 툴 소개
시각화 툴이란?
- 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 함 -> 사람들이 중요한 정보를 쉽게 볼 수 있게 하는 툴
- KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴(시간순)
- 결국은 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 함
- 데이터 기반 결정 (Data-Driven Decision)
- 데이터 참고 결정 (Data-Informed Decision)
- 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌
어떤 툴들이 존재하나?
- Excel, Google Spreadsheet: 사실상 가장 많이 쓰이는 시각화 툴
: 누구나 사용하기 쉽고 익숙함
- Python: 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합
: 다양한 시각화 라이브러리 사용(EDA)
: 코딩 사용 필수. 시작이 어려움
- Looker (구글)
: 구글 클라우드 서비스(구글이 2019년 6월에 $2.6B에 인수)
: 2012년 미국 캘리포니아 산타크루즈에서 시작
- LookML이 자체언어(SQL과 비슷)로 데이터 모델을 만드는 것으로 시작
-> 누가 만든 대시보드를 사용하기 쉬움( 셀프서비스 형태의 대시보드를 만들기 쉬움 )
- 내부 고객뿐만 아니라 외부 고객을 위한 대시보드 작성가능
- 고가의 라이센스 정책을 갖고 있으나 굉장히 다양한 기능 제공(무료버전 없음)
단점: 구글에 인수된 후 서비스의 발전속도가 안좋아짐.
- Tableau (세일즈포스)
: 2002년 미국 캘리포니아 마운틴뷰에서 시작하여 2013년 상장
: 세일즈포스가 2019년 6월에 $15.7B에 인수함
- 다양한 제품군 보유. 일부는 사용이 무료(웹/데스크탑 버전)
- 제대로 배우려면 시간이 꽤 필요하지만 강력한 대시보드 작성가능
- Looker가 뜨기 전까지 오랫동안 마켓 리더로 군림
- Power BI (마이크로소프트)
: 단점 - 대시보드를 만들 수 있는 환경이 마이크로소프트만 가능함. 웹, 맥 불가
- Apache Superset (오픈소스)
: Airflow를 만든 사람이 만든 오픈소스
- Mode Analytics, ReDash
- Google Studio
: 구글 클라우드에 원래 있던 시각화 툴 -> Looker로 인해 요즘은 잘 사용 안함 / 기능이 조금 부족함
- AWS Quicksight
: 기능이 조금 부족함
어떤 시각화 툴을 선택할 것인가?
- Looker 혹은 Tableau가 가장 많이 사용되는 추세
: 두 툴 모두 처음 배우는데 시간이 필요함
: Tableau의 가격이 더 싸고 투명하며 무료
- 중요한 포인트는 셀프서비스 대시보드를 만드는 것
: 안 그러면 매번 사람의 노동이 필요해짐
-> 60-70%의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공
: 또한 사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있음
-> 데이터 민주화 (Data Democratization), 데이터 탈중앙화 (Data Decentralization)
-> 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 필요한 이유가 됨!
: 이런 측면에서는 Looker가 더 좋은 선택이지만 가격이 상당히 비쌈
2-8. 실습: 지표 정의하고 차트 만들어보기
Tableau 제품군 소개 (1)
- Tableau Desktop
: 코어 제품으로 대시보드를 만들 수 있는 저작환경으로 맥용과 윈도우용 제공(웹 브라우저도 가능)
- Tableau Server
-> 만든 대시보드를 호스팅해주는 환경
: 엔터프라이즈 레벨 플랫폼으로 사용자들간에 대시보드, 웍북, 데이터 소스등의 공유와 웹/앱으로 접근 가능
: 중앙 플랫폼이기에 데이터 거버넌스, 보안 등을 제공
: 소프트웨어를 구매하여 직접 설치하고 운영 필요
- Tableau Online
: 클라우드 버전의 Tableau Server. 클라우드이기에 직접 설치하고 운영이 필요하지 않다는 장점 존재
: 주로 Tableau online 버전 사용
- Tableau Prep
: 데이터를 대시보드에서 사용하긴 전에 다양한 데이터 변환과 분석(EDA)등을 코딩없이 하는 데이터 전처리 툴
: Tableau Desktop, Tableau Server와 연동하여 사용되는 것이 일반적
- Tableau Public
: 기능에 있어 제약이 있는 Tableau의 무료 버전으로 학습을 위한 용도로 많이 사용됨
: 이걸 이번 강의에서 사용해볼 예정
- Tableau Mobile
: iOS나 안드로이드 동작 앱으로 Tableau 대시보드 뷰어 용도(모바일 환경)로 사용됨
Tableau Public 소개
- 장점은 무료라는 것!
: Tableau의 기능을 학습하는 용도로 사용 가능
: 보통 Desktop 버전을 다운로드 받아 사용하는 것이 일반적
- 단점은 추출된 데이터 원본(CSV 파일)만 데이터 소스로 지원
: 태블로 데스크탑에서는 여러가지 형태 가능
: 데이터에 대한 라이브 연결은 지원하지 않음
: 최대 천5백만개의 레코드를 읽어올 수 있음 -> 기능상 제약은 없음. 데이터 소스의 제약만 존재
- 내가 만든 대시보드는 기본으로 모두에게 공개가 되기 때문에 포트폴리오로 사용 가능(장점 겸 단점)
Tableau Public 설치
1. https://public.tableau.com/en-us/s/ 방문
2. 자신의 계정 생성
a. “Sign-in”을 클릭
3. 데스크탑 버전 다운로드 (https://public.tableau.com/app/learn/how-to-videos)
a. https://public.tableau.com/s/download
b. 앞서 언급한 단점이 존재하지만 학습용도로는 충분
전체 과정 설명
1. user_session_summary.csv 파일을 스쿨 페이지에서 다운로드 받을 것
a. user_id, ts, channel, session_id
2. 이를 Tableau Public으로 업로드
3. 다음으로 멀티라인 MAU 차트 생성
4. 이를 가지고 대시보드 생성
5. 최종적으로 대시보드 저장 -> 하나의 차트로 구성됨
* 태블로에서의 대시보드 : 차트의 집합
* 태블로에서의 차트 = 시트
'STUDY > DevCourse' 카테고리의 다른 글
[데브코스][데이터 분석] Excel을 활용한 다양한 데이터 분석 실습 (1), (2) (0) | 2024.02.26 |
---|---|
[데브코스][데이터 분석] 데이터 활용 시 고려할 점 (1) | 2024.02.23 |
[데브코스][데이터 분석] Gen AI를 이용한 생산성 증대 (0) | 2024.02.22 |
[데브코스][데이터 분석] 데이터 기반 제품 개선 (0) | 2024.02.21 |
[데브코스][데이터 분석] 데이터 문해력이란 (1) | 2024.02.19 |