전체 글

안녕하세요, 데이터 분석가를 꿈꾸는 개인기록 블로그입니다:)
Regression(회귀) 모델링이란?: 연속적인 값을 에측하기 위해 사용되는 알고리즘ex. 주택 가격 예측, 주식 가격 예측 등 Linear Regression: 선형 회귀 -> 정규화 사용하여 과적합 방지Polynomial Regression: Linear Regression의 변형 (선형의 한계점 극복)Decision Tree: 분류와 회귀 모두 사용 가능. 오버피팅이 쉽게 발생직관적으로 이해 가능Grid Search를 통해 트리 구성 가능-> 주어진 모델의 최적 하이퍼파라미터를 찾기 위해parameters = { 'max_depth':(1,2,3,4,5,6,7,8,9,10), # 트리의 최대 깊이. 트리가 너무 깊어지면 과적합발생 'min_samples_split': [2, 10, 20], # 노..
Classification 모델링이란?: 데이터를 다양한 클래스로 분류하는 것이다. ex. 이메일 스팸 감지, 질병 진단, 이미지 인식 등 이진 분류 (Binary): 두 개의 클래스로 분류다중 클래스 분류 (Multi-class): 세 개 이상의 클래스로 분류다중 레이블 분류 (Multi-label): 한 데이터가 여러 개의 클래스에 소속될 수 있음ex. 뉴스 기사가 여러 카테고리에 속함 Classification 알고리즘의 종류Logistic Regression: 이진 분류 문제에 자주 사용. 어떠한 확률 이상이면 해당 클래스로 분류Decision Tree: 강력하고 직관적이고 시각화하기 쉬움: Feature의 중요도가 나오도 동작방식을 쉽게 이해&설명 가능(Regression으로도 사용 가능)Ran..
· 기타
강의듣고 따라했을 뿐인데, 약 60명의 수강생이 한 번에 같은 짓을 해서 Kaggle 쪽에서 같은 활동을 한 사용자를 모두 정지한 모양이다;;;"Your account is locked. Please contact support for more information." 아침부터 짜증나서 얼른 문의를 남겨보았지만,,,후;;;; 미안하다고 사과하면서 복구해달라했는데몇 시간째 답이 안온다. 복구는 거의 힘들다고 한다..물론 별로 해둔건 없어서 아깝진 않은데,,,아오 짜증😡😡😡😡 +++++약 4번의 문의를 넣고, 메일을 보내고, 포기를 했지만,,,2일 후 연락이 왔다^^고맙다%^%^
· 기타
어제부터 첫 번째 페이지가 이런다;;;;글 배치가 이상해졌다. pc에서만 이상한걸보니 뭔가 개발을 잘못했다본데;;;;;;;;다른 사람들도 이런 오류가 많이 나고있다.  두 번째 페이지부터는 멀쩡하다;;;;;;;;;;;;;;;얼른 고쳐내라 티스토리야🤬🤬🤬🤬🤬🤬🤬https://github.com/pronist/hello/issues/224 카테고리 글 배치 오류 · Issue #224 · pronist/hello환경 (버그가 발생한 환경을 적어주세요.): 운영체제: windows 브라우저: chrome 버전: 22 스킨 버전 4.3.0 설명 갑자기 글이 구성이 깨지기 시작하면서 첨부된 그림처럼 바꼈습니다. 발생 과정 robot_onlygithub.com
데이터 EDA란?EDA를 하는 이유: 효과적인 데이터 분석과 모델링을 위한 기초 마련-> 데이터 품질 확인 (Garbage in Garbage Out) (현업에서 꺠끗한 데이터란 존재하지 않음)-> 데이터 특성 확인- 중복 레코드 체크- 최근 데이터 존재 여부 체크- primary key uniqueness 체크- null 값 확인- 등 데이터 EDA 기법- 기술 통계 분석: 숫자 변수와 카테고리 변수 파악: 숫자 변수의 경우 값 범위 파악: 카테고리 변수의 경우 카테고리 수 파악: 카테고리의 경우 머신 러닝 모델을 만들 때 인코딩 방법 결정 - 결측치 탐지 및 처리null 값 보유한 필드 찾기 -> 어떻게 처리할지 결정 필요isnull().sum() - 이상치 탐지 및 처리: 아주 크거나 아주 작은 등..
문제 설명https://school.programmers.co.kr/learn/courses/30/lessons/161989 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr  처음 시도한 풀이## 틀린 풀이def solution(n, m, section): answer = 0 # 페인트가 칠해진 구역은 1로, 페인트가 벗겨진 구역은 0으로 지정 wall = [1] * n for i in section: wall[i-1] = 0 # wall 안에 0이 있으면 페인트질 반복 while wall.count(0) >..
선형 의미파라미터들이 어떠한 실수와 가중 합(곱셈&덧셈)으로 표현된 것을 선형 결합이라고 함x는 독립변수w는 파라미터, 찾아야하는 값=> 파라미터들이 선형 결합을 이루고, 이것으로 종속 변수의 값을 표현할 수 있을 때 이것을 선형 모델이라고 함y=ax+b * 선형과 비선형을 구분하는 큰 기준은 종속 변수가 파라미터에 대해 선형적인지 비선형적인지에 따라 다름 즉, 위의 모델은 x1 입장에서는 2차항까지 있으므로 비선형이고, x1^2을 새로운 변수로 생각하면 선형 모델로 볼 수 있음즉, 관점에 따라 다름!  선형 모델의 가정: 서로 다른 독립변수는 서로 상관성이 없어야 함-> 만약 두 독립변수 사이에 높은 상관관계가 있다면, 다중공산성이라는 문제를 일으키게됨=> 정확도와 신뢰성에 저하가 일어남 + 해석력에 ..
패키지 소개1. scikit-learn: 다양한 머신러닝 알고리즘이 구현되어 있는 오픈 소스 패키지-> 내부 작동 과정 모두 확인 가능=> 데이터 처리, 파이프라인, 알고리즘, 전후처리 등 다양한 기능 ..
머신러닝 기초 개념 머신러닝이란? : 데이터에서 지식을 추출하는 작업 즉, 머신 스스로가 데이터를 바탕으로 그 안에 있는 특징과 패턴을 찾아내는 것 (학습) -> 특징과 패턴을 바탕으로 새로운 데이터에 대한 추론 진행 “어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다” - Tom Mitchell (1997) 인공지능 - 기계가 사람의 지적 능력을 모방 머신러닝 - 학습을 통해 사람처럼 예측 진행 딥러닝 - 사람을 따라한다면 사람의 인지과정을 모방하는 것이 가장 좋은 방법! 명시적 프로그램 = 규칙 기반 전문가 시스템 : 머신러닝 이전의 문제..
Superset을 설치하는 방법에는 2가지 방법이 있다. 첫 번째 방법은 본인 컴퓨터의 Docker위에 설치하는 것이고, 두 번째 방법은 preset.io라는 Superset Saas 페이지에 등록을 하고 설치하는 것인데, 등록 요건이 강화되어 회사 이메일이 없는 경우에는 등록하기 힘들다. (리눅스 서버에 설치하는 방법도 있다. ) 만약 Docker에 익숙하고 개인 컴퓨터 사양이 좋다면 Docker을 이용하는 것이 더 좋다. 이는 Superset의 오픈소스를 그대로 사용하는 형태이다. Preset.io는 무료 Starter 플랜이 있지만, 회사 이메일이 있는 경우에만 사용 가능하다. 이는 Superset 오픈소스를 기반으로 변경된 버전을 사용하는 형태이지만, 오픈소스 버전과 크게 다르지 않다. Docke..
_알파카
yeonnys' 개발일지