STUDY/DevCourse

A/B 테스트 시스템 구성: A/B 테스트 = 런타임 시스템 + 분석 시스템런타임 시스템 : 사용자를 A에 둘지, B에 둘지 결정 (버킷 결정, 보통 백엔드 엔지니어+데이터 분석가가 진행)-> A/B 테스트를 진행할 사용자 버킷 정보를 ETL을 통해 데이터 웨어하우스에 불러옴 (사용자별 행동, 이벤트 로그, 구매정보 등)-> 분석 시스템 : dbt 등을 통해 분석하기 좋은 테이블로 만들고, 시각화 등 진행 A/B 테스트 구현 방법- 직접 구현- SaaS 사용 (Optimizely, VWO 등, 이들은 대부분 front-end 관련 테스트를 하는데 유용함)-> 보통은 SaaS를 쓰다가 직접 구현하는 식으로 고도화됨 A/B 테스트 전체 과정- A/B 테스트 제안 (주간미팅)-> A/B 테스트 실행 & QA-..
데이터 팀의 미션과 발전 단계데이터 조직의 미션은 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성하는 것이다.데이터가 매출에 어떻게 영향을 끼치는지 확인 필요 데이터 조직이 하는 일 - Decision Science: 고품질 데이터 기반으로 의사 결정권자에게 입력 제공-> 데이터를 고려한 결정(data informed decisions)을 가능하게 해줌. -> 데이터 기반 지표 정의, 대시보드와 리포트 생성 등을 수행* 데이터 고려한 결정(data informed decisions) VS 데이터 기반 결정(dat driven decisions)- 데이터를 고려한 결정 : 데이터는 참고 수단이고 의사 결정권자가 결정(새로운 일을 할 때)- 데이터 기반 결정 : 데이터를 보고 나타난 결과를 바탕으로 결정..
추천 시스템이란?추천 시스템은 사용자가 관심을 가질 만한 정보(상품, 서비스 등)를 필터링해서 제공하는 기법-> 사용자의 선호도 및 과거 행동을 기반으로 함=> 사용자의 만족감을 높이고 매출 증대의 효과 기대 - 정보 과부하 문제 해결 : 수많은 옵션 중 가장 관련도 높은 항목 선택- 맞춤형 경험 : 사용자의 충성도와 만족도 증가- 비즈니스 가치 : 사용자 증가 추천 시스템의 기본 원리- 콘텐츠 기반 필터링"내가 좋아했던 것을 기반으로 추천" - 협업 필터링"나랑 비슷한 사람이 좋아하는 것 추천" - 하이브리드 추천 시스템: 콘텐츠 기반 필터링과 협업 필터링의 장점 결합-> 사용자 개인과 사용자 그룹 패턴을 분석해 맞춤형 추천 추천 시스템 활용 사례유튜브 영상 추천: 사용자가 관심을 가질만한 영상 추천콘..
글로벌 인구 통계 추세 데이터 실습글로벌 인구 통계 추세 데이터 (WPP 2022 Demographic Indicators)https://www.kaggle.com/datasets/abmsayem/wpp2022-demographic-indicators WPP2022_Demographic_IndicatorsUnited Nations, Department of Economic and Social Affairs, Population Divisionwww.kaggle.com: 1950년부터 2020년까지 세계적인 인구 통계적 추세 정보를 담고 있음-> 약 54개 (인구수, 출생률, 출산률, 등) => 특정년도 1월의 전체 인구수를 나타내는 "TPopulation1Jan" 만을 사용해보자! 지도 그래프 활용하기#..
데이터 마이닝이란?대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위해 채굴이 필요. 이렇게 채굴된 정보와 패턴으로 통찰력을 얻고, 의사결정을 진행 텍스트 데이터 -> 텍스트 마이닝이미지 데이터 -> 이미지 마이닝일반적인 데이터 -> 데이터 마이닝 즉, 데이터 마이닝이란 특정 데이터에 한정하지 않고대용량의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색=> 이로부터 유용한 지식을 추출하는 과정  (텍스트 마이닝의 큰 개념)* 데이터 선택 -> 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 해석 및 평가 데이터 마이닝의 중요성=> 아래의 과정에서 / 과정을 위해서 데이터 마이닝을 사용함!  - 의사결정 강화 : 데이터로부터 통찰력을 얻어 전략 계획 수립- 효율성 증대 : 비용 절감, 리스크 ..
딥러닝 모델을 활용해 문장 분류 실습을 해보자. Hugging Face 사용: Hugging Face에 있는 다양한 연구 결과물들을 사용할 수 있음https://huggingface.co/cardiffnlp/twitter-roberta-base-sentiment-latest cardiffnlp/twitter-roberta-base-sentiment-latest · Hugging FaceTwitter-roBERTa-base for Sentiment Analysis - UPDATED (2022) This is a RoBERTa-base model trained on ~124M tweets from January 2018 to December 2021, and finetuned for sentiment ana..
NLP와 프레임워크NLP, 자연어 처리 (Natural Language Processing): 컴퓨터가 인간의 언어를 이해하고 해석하는데 사용되는 분야. -> 인간 언어의 구조와 의미 이해를 바탕으로 글을 활용한 문제를 해결하고향상된 사용자 경험을 제공NLP : 언어의 이해Text Mining : 언어 속 내포된 정보 파악 자연어 처리의 다양한 문제- 텍스트 이해 : 질의응답, 문장이해, 정보검색- 텍스트 생성 : 문장생성, 요약, 번역- 텍스트 분류 및 태깅 : 문장분류, 개체명 인식, 품사 태깅- 텍스트 관계 추출 : 문장관계추출 주요 프레임워크- Natural Language Tool Kit (NLTK): 전통적인 NLP 기법을 구현한 패키지 모음: 다양한 텍스트 데이터 제공! (대부분 영어) - ..
토픽 모델링 (Topic Modeling)- 토픽 (Topic) : 문서 집합 안에서 논의되는 주제나 개념을 의미- 모델링 (Modeling) : 통계적인 방법으로 데이터의 패턴을 추출하는 과정 즉, 토픽 모델링이란대규모 텍스트 데이터에 존재하는 다양한 주제를 자동으로 식별하고 분류하는 과정. 이를 통해 데이터 안에 숨겨진 주제 구조를 발견하고 이해하는 목적=> 텍스트 마이닝, 자연어 처리, 정보 검색 등 다양한 분야에서 활용 토픽 모델링의 주제: 일반적으로 단어의 집합으로 표현. 텍스트 내의 특정 패턴이나 빈도를 기반으로 선택 - 데이터 소스에 따라 주제의 범위가 결정됨ex. 뉴스 기사, 소셜 미디어, 학술 논문 등 - 데이터의 트렌드와 특정 이벤트를 반영하는 경향 - 특정 주제와 비슷한 텍스트만 추려..
감정 분석이란?: 텍스트에서 작성자의 감정 상태나 태도를 파악하고 분류하는 과정: 텍스트 마이닝과 자연어 처리(NLP) 분야에 속함 - 긍정적(Positive)- 부정적(Negative)- 중립적(Neutral) 감정 분석의 응용: 감정 분석은 다양한 분야에서 광범위하게 적용- 소셜 미디어 감성 모니터링 : 대중의 반응 모니터링- 고객 서비스 분석 및 소비자 인사이트- 헬스 케어 및 의료 : 환자의 감정 상태 분석 감정 분석 사례- 호텔 리뷰 감정 분석 사례- 콜센터 사례 : 실시간 고객 감정 파악- 의류 소매 업체 감정 분석 사례 : 틱톡의 콘텐츠 데이터 분석 -> 고객의 특성과 선호도 파악 감정 분석 모델 알고리즘텍스트 데이터 전처리: 텍스트 데이터는 분석에 사용할 수 있는 형태로 전처리 필요Toke..
임베딩이란?언어는 특정 개념을 표현하기 위한 약속의 집합=> 글자를 컴퓨터에 입력으로 넣어주기 위해서는 컴퓨터가 이해할 수 있는 형태로 변경해야 함 컴퓨터는 특정 단어를 숫자의 형태(벡터)로 받아들임. 따라서 단어를 숫자의 형태로 변형하는 과정이 필요 => 임베딩 임베딩, Embedding: 텍스트 데이터를 벡터로 변환하는 기술-> 이는 텍스트 마이닝을 비롯해 자연어 처리에서 매우 기본적인 과정 데이터 준비 -> 전처리 -> 임베딩 -> 시각화데이터 준비 : 원문 데이터 혹은 다른 소스로부터 데이터를 수집전처리 : 불용어, 오타 등의 데이터를 제외임베딩 : 목적에 맞는 임베딩 알고리즘을 적용시각화 : 필요시 임베딩 결과를 그려보고 이를 확인1) 단어 임베딩 : 하나의 단어를 벡터로 변환2) 문장 임베딩 ..
_알파카
'STUDY/DevCourse' 카테고리의 글 목록