전체 글

안녕하세요, 데이터 분석가를 꿈꾸는 개인기록 블로그입니다:)
글로벌 인구 통계 추세 데이터 실습글로벌 인구 통계 추세 데이터 (WPP 2022 Demographic Indicators)https://www.kaggle.com/datasets/abmsayem/wpp2022-demographic-indicators WPP2022_Demographic_IndicatorsUnited Nations, Department of Economic and Social Affairs, Population Divisionwww.kaggle.com: 1950년부터 2020년까지 세계적인 인구 통계적 추세 정보를 담고 있음-> 약 54개 (인구수, 출생률, 출산률, 등) => 특정년도 1월의 전체 인구수를 나타내는 "TPopulation1Jan" 만을 사용해보자! 지도 그래프 활용하기#..
데이터 마이닝이란?대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위해 채굴이 필요. 이렇게 채굴된 정보와 패턴으로 통찰력을 얻고, 의사결정을 진행 텍스트 데이터 -> 텍스트 마이닝이미지 데이터 -> 이미지 마이닝일반적인 데이터 -> 데이터 마이닝 즉, 데이터 마이닝이란 특정 데이터에 한정하지 않고대용량의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색=> 이로부터 유용한 지식을 추출하는 과정  (텍스트 마이닝의 큰 개념)* 데이터 선택 -> 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 해석 및 평가 데이터 마이닝의 중요성=> 아래의 과정에서 / 과정을 위해서 데이터 마이닝을 사용함!  - 의사결정 강화 : 데이터로부터 통찰력을 얻어 전략 계획 수립- 효율성 증대 : 비용 절감, 리스크 ..
딥러닝 모델을 활용해 문장 분류 실습을 해보자. Hugging Face 사용: Hugging Face에 있는 다양한 연구 결과물들을 사용할 수 있음https://huggingface.co/cardiffnlp/twitter-roberta-base-sentiment-latest cardiffnlp/twitter-roberta-base-sentiment-latest · Hugging FaceTwitter-roBERTa-base for Sentiment Analysis - UPDATED (2022) This is a RoBERTa-base model trained on ~124M tweets from January 2018 to December 2021, and finetuned for sentiment ana..
NLP와 프레임워크NLP, 자연어 처리 (Natural Language Processing): 컴퓨터가 인간의 언어를 이해하고 해석하는데 사용되는 분야. -> 인간 언어의 구조와 의미 이해를 바탕으로 글을 활용한 문제를 해결하고향상된 사용자 경험을 제공NLP : 언어의 이해Text Mining : 언어 속 내포된 정보 파악 자연어 처리의 다양한 문제- 텍스트 이해 : 질의응답, 문장이해, 정보검색- 텍스트 생성 : 문장생성, 요약, 번역- 텍스트 분류 및 태깅 : 문장분류, 개체명 인식, 품사 태깅- 텍스트 관계 추출 : 문장관계추출 주요 프레임워크- Natural Language Tool Kit (NLTK): 전통적인 NLP 기법을 구현한 패키지 모음: 다양한 텍스트 데이터 제공! (대부분 영어) - ..
토픽 모델링 (Topic Modeling)- 토픽 (Topic) : 문서 집합 안에서 논의되는 주제나 개념을 의미- 모델링 (Modeling) : 통계적인 방법으로 데이터의 패턴을 추출하는 과정 즉, 토픽 모델링이란대규모 텍스트 데이터에 존재하는 다양한 주제를 자동으로 식별하고 분류하는 과정. 이를 통해 데이터 안에 숨겨진 주제 구조를 발견하고 이해하는 목적=> 텍스트 마이닝, 자연어 처리, 정보 검색 등 다양한 분야에서 활용 토픽 모델링의 주제: 일반적으로 단어의 집합으로 표현. 텍스트 내의 특정 패턴이나 빈도를 기반으로 선택 - 데이터 소스에 따라 주제의 범위가 결정됨ex. 뉴스 기사, 소셜 미디어, 학술 논문 등 - 데이터의 트렌드와 특정 이벤트를 반영하는 경향 - 특정 주제와 비슷한 텍스트만 추려..
감정 분석이란?: 텍스트에서 작성자의 감정 상태나 태도를 파악하고 분류하는 과정: 텍스트 마이닝과 자연어 처리(NLP) 분야에 속함 - 긍정적(Positive)- 부정적(Negative)- 중립적(Neutral) 감정 분석의 응용: 감정 분석은 다양한 분야에서 광범위하게 적용- 소셜 미디어 감성 모니터링 : 대중의 반응 모니터링- 고객 서비스 분석 및 소비자 인사이트- 헬스 케어 및 의료 : 환자의 감정 상태 분석 감정 분석 사례- 호텔 리뷰 감정 분석 사례- 콜센터 사례 : 실시간 고객 감정 파악- 의류 소매 업체 감정 분석 사례 : 틱톡의 콘텐츠 데이터 분석 -> 고객의 특성과 선호도 파악 감정 분석 모델 알고리즘텍스트 데이터 전처리: 텍스트 데이터는 분석에 사용할 수 있는 형태로 전처리 필요Toke..
임베딩이란?언어는 특정 개념을 표현하기 위한 약속의 집합=> 글자를 컴퓨터에 입력으로 넣어주기 위해서는 컴퓨터가 이해할 수 있는 형태로 변경해야 함 컴퓨터는 특정 단어를 숫자의 형태(벡터)로 받아들임. 따라서 단어를 숫자의 형태로 변형하는 과정이 필요 => 임베딩 임베딩, Embedding: 텍스트 데이터를 벡터로 변환하는 기술-> 이는 텍스트 마이닝을 비롯해 자연어 처리에서 매우 기본적인 과정 데이터 준비 -> 전처리 -> 임베딩 -> 시각화데이터 준비 : 원문 데이터 혹은 다른 소스로부터 데이터를 수집전처리 : 불용어, 오타 등의 데이터를 제외임베딩 : 목적에 맞는 임베딩 알고리즘을 적용시각화 : 필요시 임베딩 결과를 그려보고 이를 확인1) 단어 임베딩 : 하나의 단어를 벡터로 변환2) 문장 임베딩 ..
텍스트 마이닝이란?텍스트 데이터: 웹사이트, SNS, 책, 학술정보, 이메일 등 다양한 출처에서 발생- 시장 변화를 파악하고 대응할 수 있는 확인 창구- 고객의 요구 사항과 피드백 파악 가능 텍스트 데이터의 특징: 텍스트 데이터를 구성하는 요소를 기준으로 단어는 주변의 단어들과의 연관성이 존재=> 이 연관성을 이해하는 방향으로 텍스트 데이터 처리 필요 그러나 아래와 같은 이유로 어려움 존재- 비구조적 데이터(비정형)- 다양성 : 같은 의미라도 여러 표현 존재- 다의성 : 같은 표현이 다른 의미로 사용- 문맥 정보가 존재- 언어별로 고유한 특징 존재 텍스트 마이닝* 마이닝 (채굴) : 대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위한 채굴이 필요-> 이렇게 채굴된 정보와 패턴으로 통찰력을 얻..
SageMaker 소개: AWS의 ML end-to-end Framework(머신러닝 모델 개발을 처음부터 끝까지 해결해주는 AWS 서비스) 굉장히 기능이 많지만 크게 4가지 기능 존재-  트레이닝 셋 준비 (Ground Truth)- 모델 훈련- 모델 검증- 모델 배포와 관리 : API 엔드포인트, 배치 서빙, .. 다양한 머신러닝 프레임워크 지원- Tensorflow, Keras, PyTorch, MXNet, ..- 자체 SageMaker 모듈로 머신러닝 모델 훈련 가능 다양한 개발방식 지원- 기본적으로 Python Notebook을 통해 모델 훈련-> 스칼라/자바 SDK도 제공- AutoPilot이라는 코딩 불필요 모델 훈련 기능 제공 Amazon SageMaker 기능SageMaker Studio..
머신러닝 모델 개발 절차1. 문제정의 : 모델 개발 당위성을 가설로 제시: 어떤 문제를 해결할 것인지.문제 해결의 성공 여부를 결정하는 지표: 가설을 통해 풀려고 하는 문제의 임팩트와 중요도를 가늠할 수 있음 2. 데이터 수집 및 분석 : 훈련용 데이터3. 모델 훈련 및 테스트4. 모델 배포5. 모델 성능 A/B 테스트: 온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정하는 방법: 새로운 기능을 론치함으로 생기는 위험부담을 줄이는 방법ex. 추천 기능을 머신러닝 기반으로 바꾼 경우-> 먼저 5%의 사용자에게만 론치하고 나머지 95%의 사용자와 매출액과 같은 중요 지표를 이용하여 비교-> 5%의 사용자에게 별 문제가 없으면, 10%, 20%와 같이 사용자를 키우고, 최종적으로 100% 론치 - 보통 사..
_알파카
yeonnys' 개발일지