감정 분석이란?: 텍스트에서 작성자의 감정 상태나 태도를 파악하고 분류하는 과정: 텍스트 마이닝과 자연어 처리(NLP) 분야에 속함 - 긍정적(Positive)- 부정적(Negative)- 중립적(Neutral) 감정 분석의 응용: 감정 분석은 다양한 분야에서 광범위하게 적용- 소셜 미디어 감성 모니터링 : 대중의 반응 모니터링- 고객 서비스 분석 및 소비자 인사이트- 헬스 케어 및 의료 : 환자의 감정 상태 분석 감정 분석 사례- 호텔 리뷰 감정 분석 사례- 콜센터 사례 : 실시간 고객 감정 파악- 의류 소매 업체 감정 분석 사례 : 틱톡의 콘텐츠 데이터 분석 -> 고객의 특성과 선호도 파악 감정 분석 모델 알고리즘텍스트 데이터 전처리: 텍스트 데이터는 분석에 사용할 수 있는 형태로 전처리 필요Toke..
임베딩이란?언어는 특정 개념을 표현하기 위한 약속의 집합=> 글자를 컴퓨터에 입력으로 넣어주기 위해서는 컴퓨터가 이해할 수 있는 형태로 변경해야 함 컴퓨터는 특정 단어를 숫자의 형태(벡터)로 받아들임. 따라서 단어를 숫자의 형태로 변형하는 과정이 필요 => 임베딩 임베딩, Embedding: 텍스트 데이터를 벡터로 변환하는 기술-> 이는 텍스트 마이닝을 비롯해 자연어 처리에서 매우 기본적인 과정 데이터 준비 -> 전처리 -> 임베딩 -> 시각화데이터 준비 : 원문 데이터 혹은 다른 소스로부터 데이터를 수집전처리 : 불용어, 오타 등의 데이터를 제외임베딩 : 목적에 맞는 임베딩 알고리즘을 적용시각화 : 필요시 임베딩 결과를 그려보고 이를 확인1) 단어 임베딩 : 하나의 단어를 벡터로 변환2) 문장 임베딩 ..
텍스트 마이닝이란?텍스트 데이터: 웹사이트, SNS, 책, 학술정보, 이메일 등 다양한 출처에서 발생- 시장 변화를 파악하고 대응할 수 있는 확인 창구- 고객의 요구 사항과 피드백 파악 가능 텍스트 데이터의 특징: 텍스트 데이터를 구성하는 요소를 기준으로 단어는 주변의 단어들과의 연관성이 존재=> 이 연관성을 이해하는 방향으로 텍스트 데이터 처리 필요 그러나 아래와 같은 이유로 어려움 존재- 비구조적 데이터(비정형)- 다양성 : 같은 의미라도 여러 표현 존재- 다의성 : 같은 표현이 다른 의미로 사용- 문맥 정보가 존재- 언어별로 고유한 특징 존재 텍스트 마이닝* 마이닝 (채굴) : 대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위한 채굴이 필요-> 이렇게 채굴된 정보와 패턴으로 통찰력을 얻..
SageMaker 소개: AWS의 ML end-to-end Framework(머신러닝 모델 개발을 처음부터 끝까지 해결해주는 AWS 서비스) 굉장히 기능이 많지만 크게 4가지 기능 존재- 트레이닝 셋 준비 (Ground Truth)- 모델 훈련- 모델 검증- 모델 배포와 관리 : API 엔드포인트, 배치 서빙, .. 다양한 머신러닝 프레임워크 지원- Tensorflow, Keras, PyTorch, MXNet, ..- 자체 SageMaker 모듈로 머신러닝 모델 훈련 가능 다양한 개발방식 지원- 기본적으로 Python Notebook을 통해 모델 훈련-> 스칼라/자바 SDK도 제공- AutoPilot이라는 코딩 불필요 모델 훈련 기능 제공 Amazon SageMaker 기능SageMaker Studio..
머신러닝 모델 개발 절차1. 문제정의 : 모델 개발 당위성을 가설로 제시: 어떤 문제를 해결할 것인지.문제 해결의 성공 여부를 결정하는 지표: 가설을 통해 풀려고 하는 문제의 임팩트와 중요도를 가늠할 수 있음 2. 데이터 수집 및 분석 : 훈련용 데이터3. 모델 훈련 및 테스트4. 모델 배포5. 모델 성능 A/B 테스트: 온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정하는 방법: 새로운 기능을 론치함으로 생기는 위험부담을 줄이는 방법ex. 추천 기능을 머신러닝 기반으로 바꾼 경우-> 먼저 5%의 사용자에게만 론치하고 나머지 95%의 사용자와 매출액과 같은 중요 지표를 이용하여 비교-> 5%의 사용자에게 별 문제가 없으면, 10%, 20%와 같이 사용자를 키우고, 최종적으로 100% 론치 - 보통 사..
Regression(회귀) 모델링이란?: 연속적인 값을 에측하기 위해 사용되는 알고리즘ex. 주택 가격 예측, 주식 가격 예측 등 Linear Regression: 선형 회귀 -> 정규화 사용하여 과적합 방지Polynomial Regression: Linear Regression의 변형 (선형의 한계점 극복)Decision Tree: 분류와 회귀 모두 사용 가능. 오버피팅이 쉽게 발생직관적으로 이해 가능Grid Search를 통해 트리 구성 가능-> 주어진 모델의 최적 하이퍼파라미터를 찾기 위해parameters = { 'max_depth':(1,2,3,4,5,6,7,8,9,10), # 트리의 최대 깊이. 트리가 너무 깊어지면 과적합발생 'min_samples_split': [2, 10, 20], # 노..
Classification 모델링이란?: 데이터를 다양한 클래스로 분류하는 것이다. ex. 이메일 스팸 감지, 질병 진단, 이미지 인식 등 이진 분류 (Binary): 두 개의 클래스로 분류다중 클래스 분류 (Multi-class): 세 개 이상의 클래스로 분류다중 레이블 분류 (Multi-label): 한 데이터가 여러 개의 클래스에 소속될 수 있음ex. 뉴스 기사가 여러 카테고리에 속함 Classification 알고리즘의 종류Logistic Regression: 이진 분류 문제에 자주 사용. 어떠한 확률 이상이면 해당 클래스로 분류Decision Tree: 강력하고 직관적이고 시각화하기 쉬움: Feature의 중요도가 나오도 동작방식을 쉽게 이해&설명 가능(Regression으로도 사용 가능)Ran..
강의듣고 따라했을 뿐인데, 약 60명의 수강생이 한 번에 같은 짓을 해서 Kaggle 쪽에서 같은 활동을 한 사용자를 모두 정지한 모양이다;;;"Your account is locked. Please contact support for more information." 아침부터 짜증나서 얼른 문의를 남겨보았지만,,,후;;;; 미안하다고 사과하면서 복구해달라했는데몇 시간째 답이 안온다. 복구는 거의 힘들다고 한다..물론 별로 해둔건 없어서 아깝진 않은데,,,아오 짜증😡😡😡😡 +++++약 4번의 문의를 넣고, 메일을 보내고, 포기를 했지만,,,2일 후 연락이 왔다^^고맙다%^%^
어제부터 첫 번째 페이지가 이런다;;;;글 배치가 이상해졌다. pc에서만 이상한걸보니 뭔가 개발을 잘못했다본데;;;;;;;;다른 사람들도 이런 오류가 많이 나고있다. 두 번째 페이지부터는 멀쩡하다;;;;;;;;;;;;;;;얼른 고쳐내라 티스토리야🤬🤬🤬🤬🤬🤬🤬https://github.com/pronist/hello/issues/224 카테고리 글 배치 오류 · Issue #224 · pronist/hello환경 (버그가 발생한 환경을 적어주세요.): 운영체제: windows 브라우저: chrome 버전: 22 스킨 버전 4.3.0 설명 갑자기 글이 구성이 깨지기 시작하면서 첨부된 그림처럼 바꼈습니다. 발생 과정 robot_onlygithub.com
데이터 EDA란?EDA를 하는 이유: 효과적인 데이터 분석과 모델링을 위한 기초 마련-> 데이터 품질 확인 (Garbage in Garbage Out) (현업에서 꺠끗한 데이터란 존재하지 않음)-> 데이터 특성 확인- 중복 레코드 체크- 최근 데이터 존재 여부 체크- primary key uniqueness 체크- null 값 확인- 등 데이터 EDA 기법- 기술 통계 분석: 숫자 변수와 카테고리 변수 파악: 숫자 변수의 경우 값 범위 파악: 카테고리 변수의 경우 카테고리 수 파악: 카테고리의 경우 머신 러닝 모델을 만들 때 인코딩 방법 결정 - 결측치 탐지 및 처리null 값 보유한 필드 찾기 -> 어떻게 처리할지 결정 필요isnull().sum() - 이상치 탐지 및 처리: 아주 크거나 아주 작은 등..