Google Sheet를 이용해 지표를 정의하고 차트를 만들어보자!
Google Sheet란?
- 구글의 스프레드시트를 의미한다. Microsoft Excel에 대응하여 구글에 만든 웹 기반 서비스로, 인터넷 연결만으로도 사용할 수 있으며, 기본적으로 Microsoft(MS) Excel과 비슷한 인터페이스를 가지고 있다.
장점
: 행과 열의 개수 제한, 그리고 속도를 제외한다면 가장 데이터베이스에 적합한 프로그램은 Microsoft사의 Excel이 아닌 구글 스프레드시트가 될 정도로 강력한 기능이 많고 웹과 온라인 특성에서 가져올 수 있는 강점을 보인다.
-> 협업과 자동화, (스몰) 데이터 관리에 있어 효율적이다.
: 구글 드라이브에 연동하여 쉽게 공뷰할 수 있으며, 웹 주소를 공유해 공동 작업이 가능하다.
: 100% 무료이다.
단점:
: 구글 서버 측에서 부담해야 하는 리소스 양과 한계 때문에 기본적으로 속도가 느리고, 데이터 양과 연산이 많아질수록 더더욱 느려진다.
Simple ML for Sheets란?
- 구글 스프레드시트의 무료 확장판
- 시트 상의 데이터를 훈련 데이터로 사용하여 간단한 머신러닝 모델을 만들 수 있음
(컬럼 중 하나를 label or field로 사용 가능! )
Simple ML for Sheets 설치 방법
: 구글 아이디 필요
1) 해당 사이트 이동
https://workspace.google.com/marketplace/app/simple_ml_for_sheets/685936641092
2) 설치 진행 및 계정 연결 & 접근 허용
3) 본인의 구글 스프레드 시트 상에 설치 완료!
[실습] Simple ML for Sheets을 통해 모델을 생성하고 결측값을 예측하여 채워보자!
1) 예제 시트 복사
https://docs.google.com/spreadsheets/u/1/d/1Ve7umK4W6wBje1QZQVbPIH3djCl2uwfwXvezGliCpss/copy
위 링크에 들어가 예제 시트를 복사해오자.
* 링크가 안된다면 검색을 통해 들어갈 수도 있다.
https://simplemlforsheets.com/tutorial.html
-> 공식 문서에서 나타내는 예제이다.
2) 예제 시트를 복사하면 자동으로 연결된 구글 계정에 따라 자동으로 시트(문서)가 열린다
(본 과정을 로그인 된 크롬 상에서 진행한다면....)
3) 확장프로그램을 눌러 " Simple ML for sheets " 을 연다.
* 이 과정에서 "Simple ML for sheets"가 뜨지 않다면, 문서가 열린 계정을 잘 확인해보자.
-> 잘 실행되었다면, 오른쪽에 메뉴바가 생긴다.
==> 3가지 형태의 기본적인 작업 수행 가능!
-> 8개의 필드(열)로 되어있으며,
마지막 필드( species )가 예측대상이 되는 필드(열) 임
해당 데이터는 펭귄 서식지에 관한 데이터로,
이 서식지는 턱끈(Chinstrap), 젠투(Gentoo), 아델리(Adelie)의 세 가지 펭귄 종으로 구성되어 있다.
30번 행부터는 모든 필드가 채워져있고, 30번 이전 행들은 예측값이 채워져있지 않기 때문에
예측 모델을 생성해 30번 이전 행들의 예측값을 찾아낼 것이다!
4) Simple ML for Sheets로 결측값 예측
메뉴바의 "Predict missing value"를 선택하여 결측값을 채워보자.
=> Predict 버튼 클릭을 통해 예측값 획득 가능! 이 때, 어떤 값을 예측할 것인지 선택도 가능
=> 옆에 2개의 컬럼이 추가되면서, I번째 컬럼에는 예측된 결과(펭귄의 종),
J번째 컬럼에는 확신도를 나타냄
- Pred:species는 종 열에 대한 예측 값
- Pred:Conf.species는 예측값의 신뢰도 / 즉, 이 열은 모델이 Pred:species 열의 예측에 대해 얼마나 확신하는지 나타낸다 . 신뢰도는 0%에서 100% 사이의 백분율이다. 여기서 100%는 모델이 예측을 확신한다는 의미이다.
끄읏-!