STUDY

임베딩이란?언어는 특정 개념을 표현하기 위한 약속의 집합=> 글자를 컴퓨터에 입력으로 넣어주기 위해서는 컴퓨터가 이해할 수 있는 형태로 변경해야 함 컴퓨터는 특정 단어를 숫자의 형태(벡터)로 받아들임. 따라서 단어를 숫자의 형태로 변형하는 과정이 필요 => 임베딩 임베딩, Embedding: 텍스트 데이터를 벡터로 변환하는 기술-> 이는 텍스트 마이닝을 비롯해 자연어 처리에서 매우 기본적인 과정 데이터 준비 -> 전처리 -> 임베딩 -> 시각화데이터 준비 : 원문 데이터 혹은 다른 소스로부터 데이터를 수집전처리 : 불용어, 오타 등의 데이터를 제외임베딩 : 목적에 맞는 임베딩 알고리즘을 적용시각화 : 필요시 임베딩 결과를 그려보고 이를 확인1) 단어 임베딩 : 하나의 단어를 벡터로 변환2) 문장 임베딩 ..
텍스트 마이닝이란?텍스트 데이터: 웹사이트, SNS, 책, 학술정보, 이메일 등 다양한 출처에서 발생- 시장 변화를 파악하고 대응할 수 있는 확인 창구- 고객의 요구 사항과 피드백 파악 가능 텍스트 데이터의 특징: 텍스트 데이터를 구성하는 요소를 기준으로 단어는 주변의 단어들과의 연관성이 존재=> 이 연관성을 이해하는 방향으로 텍스트 데이터 처리 필요 그러나 아래와 같은 이유로 어려움 존재- 비구조적 데이터(비정형)- 다양성 : 같은 의미라도 여러 표현 존재- 다의성 : 같은 표현이 다른 의미로 사용- 문맥 정보가 존재- 언어별로 고유한 특징 존재 텍스트 마이닝* 마이닝 (채굴) : 대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위한 채굴이 필요-> 이렇게 채굴된 정보와 패턴으로 통찰력을 얻..
SageMaker 소개: AWS의 ML end-to-end Framework(머신러닝 모델 개발을 처음부터 끝까지 해결해주는 AWS 서비스) 굉장히 기능이 많지만 크게 4가지 기능 존재-  트레이닝 셋 준비 (Ground Truth)- 모델 훈련- 모델 검증- 모델 배포와 관리 : API 엔드포인트, 배치 서빙, .. 다양한 머신러닝 프레임워크 지원- Tensorflow, Keras, PyTorch, MXNet, ..- 자체 SageMaker 모듈로 머신러닝 모델 훈련 가능 다양한 개발방식 지원- 기본적으로 Python Notebook을 통해 모델 훈련-> 스칼라/자바 SDK도 제공- AutoPilot이라는 코딩 불필요 모델 훈련 기능 제공 Amazon SageMaker 기능SageMaker Studio..
머신러닝 모델 개발 절차1. 문제정의 : 모델 개발 당위성을 가설로 제시: 어떤 문제를 해결할 것인지.문제 해결의 성공 여부를 결정하는 지표: 가설을 통해 풀려고 하는 문제의 임팩트와 중요도를 가늠할 수 있음 2. 데이터 수집 및 분석 : 훈련용 데이터3. 모델 훈련 및 테스트4. 모델 배포5. 모델 성능 A/B 테스트: 온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정하는 방법: 새로운 기능을 론치함으로 생기는 위험부담을 줄이는 방법ex. 추천 기능을 머신러닝 기반으로 바꾼 경우-> 먼저 5%의 사용자에게만 론치하고 나머지 95%의 사용자와 매출액과 같은 중요 지표를 이용하여 비교-> 5%의 사용자에게 별 문제가 없으면, 10%, 20%와 같이 사용자를 키우고, 최종적으로 100% 론치 - 보통 사..
Regression(회귀) 모델링이란?: 연속적인 값을 에측하기 위해 사용되는 알고리즘ex. 주택 가격 예측, 주식 가격 예측 등 Linear Regression: 선형 회귀 -> 정규화 사용하여 과적합 방지Polynomial Regression: Linear Regression의 변형 (선형의 한계점 극복)Decision Tree: 분류와 회귀 모두 사용 가능. 오버피팅이 쉽게 발생직관적으로 이해 가능Grid Search를 통해 트리 구성 가능-> 주어진 모델의 최적 하이퍼파라미터를 찾기 위해parameters = { 'max_depth':(1,2,3,4,5,6,7,8,9,10), # 트리의 최대 깊이. 트리가 너무 깊어지면 과적합발생 'min_samples_split': [2, 10, 20], # 노..
Classification 모델링이란?: 데이터를 다양한 클래스로 분류하는 것이다. ex. 이메일 스팸 감지, 질병 진단, 이미지 인식 등 이진 분류 (Binary): 두 개의 클래스로 분류다중 클래스 분류 (Multi-class): 세 개 이상의 클래스로 분류다중 레이블 분류 (Multi-label): 한 데이터가 여러 개의 클래스에 소속될 수 있음ex. 뉴스 기사가 여러 카테고리에 속함 Classification 알고리즘의 종류Logistic Regression: 이진 분류 문제에 자주 사용. 어떠한 확률 이상이면 해당 클래스로 분류Decision Tree: 강력하고 직관적이고 시각화하기 쉬움: Feature의 중요도가 나오도 동작방식을 쉽게 이해&설명 가능(Regression으로도 사용 가능)Ran..
데이터 EDA란?EDA를 하는 이유: 효과적인 데이터 분석과 모델링을 위한 기초 마련-> 데이터 품질 확인 (Garbage in Garbage Out) (현업에서 꺠끗한 데이터란 존재하지 않음)-> 데이터 특성 확인- 중복 레코드 체크- 최근 데이터 존재 여부 체크- primary key uniqueness 체크- null 값 확인- 등 데이터 EDA 기법- 기술 통계 분석: 숫자 변수와 카테고리 변수 파악: 숫자 변수의 경우 값 범위 파악: 카테고리 변수의 경우 카테고리 수 파악: 카테고리의 경우 머신 러닝 모델을 만들 때 인코딩 방법 결정 - 결측치 탐지 및 처리null 값 보유한 필드 찾기 -> 어떻게 처리할지 결정 필요isnull().sum() - 이상치 탐지 및 처리: 아주 크거나 아주 작은 등..
선형 의미파라미터들이 어떠한 실수와 가중 합(곱셈&덧셈)으로 표현된 것을 선형 결합이라고 함x는 독립변수w는 파라미터, 찾아야하는 값=> 파라미터들이 선형 결합을 이루고, 이것으로 종속 변수의 값을 표현할 수 있을 때 이것을 선형 모델이라고 함y=ax+b * 선형과 비선형을 구분하는 큰 기준은 종속 변수가 파라미터에 대해 선형적인지 비선형적인지에 따라 다름 즉, 위의 모델은 x1 입장에서는 2차항까지 있으므로 비선형이고, x1^2을 새로운 변수로 생각하면 선형 모델로 볼 수 있음즉, 관점에 따라 다름!  선형 모델의 가정: 서로 다른 독립변수는 서로 상관성이 없어야 함-> 만약 두 독립변수 사이에 높은 상관관계가 있다면, 다중공산성이라는 문제를 일으키게됨=> 정확도와 신뢰성에 저하가 일어남 + 해석력에 ..
패키지 소개1. scikit-learn: 다양한 머신러닝 알고리즘이 구현되어 있는 오픈 소스 패키지-> 내부 작동 과정 모두 확인 가능=> 데이터 처리, 파이프라인, 알고리즘, 전후처리 등 다양한 기능 ..
머신러닝 기초 개념 머신러닝이란? : 데이터에서 지식을 추출하는 작업 즉, 머신 스스로가 데이터를 바탕으로 그 안에 있는 특징과 패턴을 찾아내는 것 (학습) -> 특징과 패턴을 바탕으로 새로운 데이터에 대한 추론 진행 “어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다” - Tom Mitchell (1997) 인공지능 - 기계가 사람의 지적 능력을 모방 머신러닝 - 학습을 통해 사람처럼 예측 진행 딥러닝 - 사람을 따라한다면 사람의 인지과정을 모방하는 것이 가장 좋은 방법! 명시적 프로그램 = 규칙 기반 전문가 시스템 : 머신러닝 이전의 문제..
_알파카
'STUDY' 카테고리의 글 목록 (2 Page)