태블로는 데이터를 기반으로 계산/분석/표시하기 위한 시각화 툴이다.
즉, 데이터를 시각화해주는 기구라고 생각하면 된다.
이 때, 시각화 툴은 대시보드 혹은 BI(Business Intelligence) 툴 이라고도 불린다
즉, 시각화 툴은 사람들이 중요한 정보를 쉽게 볼 수 있도록 하는 툴이다!
이는 결정권자들이 데이터 기반 의사결정을 쉽게 할 수 있도록 도와주며, 데이터 분석을 쉽게 할 수 있도록 도와준다.
대표적인 시각화 툴
- Excel, Google Spreadsheet
- Python
- Looker
- Tableau
- Power BI
- Apache Superset
- Mode Analytics, ReDash
- Google Studio
- AWS Quicksight
현업에서 가장 많이 사용하는 툴은 Looker와 Tableau인데,
무료로 사용하고 학습할 수 있는 Tableau(태블로)를 공부해보겠다
Tableau 제품군 소개 (1)
- Tableau Desktop
: 코어 제품으로 대시보드를 만들 수 있는 저작환경으로 맥용과 윈도우용 제공(웹 브라우저도 가능)
- Tableau Server
-> 만든 대시보드를 호스팅해주는 환경
: 엔터프라이즈 레벨 플랫폼으로 사용자들간에 대시보드, 웍북, 데이터 소스등의 공유와 웹/앱으로 접근 가능
: 중앙 플랫폼이기에 데이터 거버넌스, 보안 등을 제공
: 소프트웨어를 구매하여 직접 설치하고 운영 필요
- Tableau Online
: 클라우드 버전의 Tableau Server. 클라우드이기에 직접 설치하고 운영이 필요하지 않다는 장점 존재
: 주로 Tableau online 버전 사용
- Tableau Prep
: 데이터를 대시보드에서 사용하긴 전에 다양한 데이터 변환과 분석(EDA)등을 코딩없이 하는 데이터 전처리 툴
: Tableau Desktop, Tableau Server와 연동하여 사용되는 것이 일반적
- Tableau Public
: 기능에 있어 제약이 있는 Tableau의 무료 버전으로 학습을 위한 용도로 많이 사용됨
: 이걸 이번 강의에서 사용해볼 예정
- Tableau Mobile
: iOS나 안드로이드 동작 앱으로 Tableau 대시보드 뷰어 용도(모바일 환경)로 사용됨
Tableau Public 소개
- 장점은 무료라는 것!
: Tableau의 기능을 학습하는 용도로 사용 가능
: 보통 Desktop 버전을 다운로드 받아 사용하는 것이 일반적
- 단점은 추출된 데이터 원본(CSV 파일)만 데이터 소스로 지원
: 태블로 데스크탑에서는 여러가지 형태 가능
: 데이터에 대한 라이브 연결은 지원하지 않음 (DB와 연동 불가)
: 최대 천5백만개의 레코드를 읽어올 수 있음 -> 기능상 제약은 없음. 데이터 소스의 제약만 존재
- 내가 만든 대시보드는 기본으로 모두에게 공개가 되기 때문에 포트폴리오로 사용 가능(장점 겸 단점)
또한, 다른 사람들이 올린 대시보드도 확인해볼 수 있다.
Tableau의 Dimensions와 Measures
- Dimensions (차원):
- 정성적 데이터로 일반적으로 차트의 X축(Columns)에 배치됨
- 데이터를 세분화, 분류하는데 사용되는 카테고리 필드
- Dimension을 사용해 그룹핑, 필터링 등을 수행
- 예시: 제품 이름, 날짜, 지역, 연령대, 부서 등입니다.
- Measures (측정값):
- 정량적 데이터, 즉 숫자로 차트의 Y축(Rows)에 표시되는 경우가 많음
- 예시: 매출액, 사용자수, 온도 판독값 등으로 연속된 숫자
Tableau Public 설치 방법
1. https://public.tableau.com/en-us/s/
2. 자신의 계정 생성
“Sign-in”을 클릭
메뉴 -> 로그인을 통해 회원가입을 할 수 있다!
3. 데스크탑 버전 다운로드 (https://public.tableau.com/app/learn/how-to-videos)
위의 사이트에서 윈도우버전을 다운로드한다!
a. https://public.tableau.com/s/download
b. 앞서 언급한 단점이 존재하지만 학습용도로는 충분
4. 설치 완료 및 실행
5. CSV 파일 불러오기
필자는 기본으로 아래 디렉토리가 생성되었기에,
앞으로 태블로를 통해 분석할 모든 데이터를 해당 디렉토리에 넣을 것이다.
사용한 데이터는 데브코스 데이터분석 2기 수업에서 사용한 데이터이다.
데이터를 열면, 어떤 내용들이 있는지 몇 개의 예시를 보여준다.
+ 필드의 정보를 요약해준 것 역시 확인할 수 있다.
6. active user(활성고객)를 보여주는 차트를 만들어보자!
왼쪽 하단의 시트 1을 누르면 대시보드를 만들 수 있는 새로운 시트로 이동하게 된다.
열(columns) : demesion.. 수치를 어떤 관점으로 볼 것인지. 보통은 time-stemp 형식으로 시간에 따라 확인
행(row) : 보통 measure.. 우리가 체크하고 싶은 수치
< active user(활성고객)를 보여주는 차트를 만들어보자! >
1) 먼저, Time-Stemp 필드(Ts)를 "열"에 올린다.
기본으로 년도만 나오지만, 변경 가능
더 보기 -> 사용자 지정 -> "연도/월"로 변경 -> 시간에 따른 X축 완성!
2) 해당 "연도/월"에 들어온 신규 사용자의 숫자를 파악해보자.
한 사용자는 한 번만 count! (유니크한 count) -> Count Distinct
-> "User ID" 필드를 Row(행)에 넣기
=> 모든 멤버 추가 선택
필드 속성 변경 -> 측정값 -> 카운드(고유)
3) 해당 "연도/월"에 들어온 신규 사용자의 숫자를 파악해보자.
-> 만약 채널에 따른 count의 트렌드를 보고 싶다면..
채널 필드(Channel)를 "마크" 밑으로 drop함
-> 6개의 채널이 있기 때문에 6개의 그래프가 그려짐
==> 채널을 필터에 추가해서 쉽게 보자!
=> 필터의 모양 지정 가능
=> 일단 지원해준 6개의 값으로 필터를 넣어보자.
=> "필터 표시"를 선택해야만 필터 박스가 보인다.
=> 선택한 필터에 따른 그래프 확인 가능!
(Google과 Naver 채널만을 필터로 설정했기에, 2개의 그래프가 나옴!)
4) 차트 & 대시보드 제목을 바꿔보자!
* 대시보드는 차트(시트)의 집합이다.
* 차트(시트)는 우리가 만든 그래프이고, 대시보드는 여러 개의 시트를 의미한다.
* 태블로에서 차트 = 시트라는 이름으로 제공
이름 있는 곳을 더블클릭하면 차트의 이름을 바꿀 수 있다.
폰트 크기, 색깔 등 다양한 요소 변경 가능!
(우리가 만든 차트는 월 별 고객의 수 이므로 이름은 MAU로 지정하였다! )
왼쪽 하단의 "시트"를 나타내는 곳을 더블클릭하면, 시트의 이름도 바꿀 수 있다.
5) 만든 대시보드를 태블로 사이트에 저장하자!
파일 -> Tableau Publuc에 다른 이름으로 저장 -> 태블로 로그인 -> 내 계정안에 이러한 대시보드를 저장 가능 -> 누구나 확인 가능(포트폴리오 형식)