프로그래머스를 잠시 멈추고 백준 사이트를 통해 알고리즘 문제를 풀려한다. 그런데 입출력부터 막히는 것이다;;; 필자는 VSCode를 사용하고 있는데, 여러줄의 입력을 제공하려할 때 아래 이미지와 같이 자동으로 두 번씩 실행되는 것이였다. 왜 여러줄 입력이 안되는지 열심히 찾아봤는데결국 원인은 찾지 못했다^^;;; 아무튼 좀 짜증나는 상태에서 백준 문제 풀이를 위한 새로운 vscode 확장 프로그램을 찾아내었다. Competitive Programming Helper (cph) cph라고 불리는 이 확장 프로그램은 문제를 풀 때, 터미널에 입출력 제공없이 여러가지 테스트 케이스들을 확인할 수 있다. 위와 같이 왼쪽바에 생긴 cph 아이콘을 누르면, input과 output 결과들을 집어넣고 실행시간, 정..
데이터 팀의 미션과 발전 단계데이터 조직의 미션은 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성하는 것이다.데이터가 매출에 어떻게 영향을 끼치는지 확인 필요 데이터 조직이 하는 일 - Decision Science: 고품질 데이터 기반으로 의사 결정권자에게 입력 제공-> 데이터를 고려한 결정(data informed decisions)을 가능하게 해줌. -> 데이터 기반 지표 정의, 대시보드와 리포트 생성 등을 수행* 데이터 고려한 결정(data informed decisions) VS 데이터 기반 결정(dat driven decisions)- 데이터를 고려한 결정 : 데이터는 참고 수단이고 의사 결정권자가 결정(새로운 일을 할 때)- 데이터 기반 결정 : 데이터를 보고 나타난 결과를 바탕으로 결정..
이번에는 시뮬레이션과 완전 탐색에 중점을 둔 구현 문제에 대해 알아보겠습니다. 구현이란, 머릿속에 있는 알고리즘을 소스코드로 바꾸는 과정 (사실상 모든 문제가 구현 문제라고 생각할 수 있습니다;^^)그러나 일반적으로 구현 유형의 문제는 문제에서 요구하는 내용이 구현에 초점이 맞춰있거나, 구현이 어려운 문제를 의미합니다. 즉, 풀이를 떠올리는 것은 쉽지만 소스코드로 옮기기 어려운 문제를 지칭합니다. 알고리즘은 간단한데 코드가 지나칠만큼 길어지는 문제실수 연산을 다루고, 특정 소수점 자리까지 출력해야 하는 문제문자열을 특정한 기준에 따라서 끊어 처리해야 하는 문제적절한 라이브러리를 찾아서 사용해야 하는 문제이러한 구현 문제의 경우, 다양한 라이브러리를 익히는 등 많은 연습이 필요한 문제입니다. 행렬은 파..
그리디 알고리즘이란? 그리디 알고리즘(탐욕법)은 현재 상황에서 지금 당장 좋은 것만 고르는 방법을 의미한다. 그리디 알고리즘은 한국어로 탐욕법이라고 하며, 현재 상황에서 지금 당장 좋은 것만 고르는 방법을 의미합니다. 일반적인 그리디 알고리즘은 문제를 풀기 위한 최소한의 아이디어를 떠올릴 수 있는 능력을 요구하는데요, 그리디 알고리즘의 해법은 그 정당성 분석이 중요합니다. 즉, 단순히 가장 좋아 보이는 것을 반복적으로 선택하는 것만으로도 최적의 해를 구할 수 있는지를 검토하는 것이 필요합니다. 아래와 같은 예시 문제가 있습니다. 루트 노드(5)부터 시작하여 거쳐 가는 노드 값의 합을 최대로 만들고 싶을 때, 최적의 해는 무엇인가요? 직관적으로 확인할 수 있듯이, 5 -> 7 -> 9로 이동하면 노트..
추천 시스템이란?추천 시스템은 사용자가 관심을 가질 만한 정보(상품, 서비스 등)를 필터링해서 제공하는 기법-> 사용자의 선호도 및 과거 행동을 기반으로 함=> 사용자의 만족감을 높이고 매출 증대의 효과 기대 - 정보 과부하 문제 해결 : 수많은 옵션 중 가장 관련도 높은 항목 선택- 맞춤형 경험 : 사용자의 충성도와 만족도 증가- 비즈니스 가치 : 사용자 증가 추천 시스템의 기본 원리- 콘텐츠 기반 필터링"내가 좋아했던 것을 기반으로 추천" - 협업 필터링"나랑 비슷한 사람이 좋아하는 것 추천" - 하이브리드 추천 시스템: 콘텐츠 기반 필터링과 협업 필터링의 장점 결합-> 사용자 개인과 사용자 그룹 패턴을 분석해 맞춤형 추천 추천 시스템 활용 사례유튜브 영상 추천: 사용자가 관심을 가질만한 영상 추천콘..
글로벌 인구 통계 추세 데이터 실습글로벌 인구 통계 추세 데이터 (WPP 2022 Demographic Indicators)https://www.kaggle.com/datasets/abmsayem/wpp2022-demographic-indicators WPP2022_Demographic_IndicatorsUnited Nations, Department of Economic and Social Affairs, Population Divisionwww.kaggle.com: 1950년부터 2020년까지 세계적인 인구 통계적 추세 정보를 담고 있음-> 약 54개 (인구수, 출생률, 출산률, 등) => 특정년도 1월의 전체 인구수를 나타내는 "TPopulation1Jan" 만을 사용해보자! 지도 그래프 활용하기#..
데이터 마이닝이란?대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위해 채굴이 필요. 이렇게 채굴된 정보와 패턴으로 통찰력을 얻고, 의사결정을 진행 텍스트 데이터 -> 텍스트 마이닝이미지 데이터 -> 이미지 마이닝일반적인 데이터 -> 데이터 마이닝 즉, 데이터 마이닝이란 특정 데이터에 한정하지 않고대용량의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색=> 이로부터 유용한 지식을 추출하는 과정 (텍스트 마이닝의 큰 개념)* 데이터 선택 -> 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 해석 및 평가 데이터 마이닝의 중요성=> 아래의 과정에서 / 과정을 위해서 데이터 마이닝을 사용함! - 의사결정 강화 : 데이터로부터 통찰력을 얻어 전략 계획 수립- 효율성 증대 : 비용 절감, 리스크 ..
딥러닝 모델을 활용해 문장 분류 실습을 해보자. Hugging Face 사용: Hugging Face에 있는 다양한 연구 결과물들을 사용할 수 있음https://huggingface.co/cardiffnlp/twitter-roberta-base-sentiment-latest cardiffnlp/twitter-roberta-base-sentiment-latest · Hugging FaceTwitter-roBERTa-base for Sentiment Analysis - UPDATED (2022) This is a RoBERTa-base model trained on ~124M tweets from January 2018 to December 2021, and finetuned for sentiment ana..
NLP와 프레임워크NLP, 자연어 처리 (Natural Language Processing): 컴퓨터가 인간의 언어를 이해하고 해석하는데 사용되는 분야. -> 인간 언어의 구조와 의미 이해를 바탕으로 글을 활용한 문제를 해결하고향상된 사용자 경험을 제공NLP : 언어의 이해Text Mining : 언어 속 내포된 정보 파악 자연어 처리의 다양한 문제- 텍스트 이해 : 질의응답, 문장이해, 정보검색- 텍스트 생성 : 문장생성, 요약, 번역- 텍스트 분류 및 태깅 : 문장분류, 개체명 인식, 품사 태깅- 텍스트 관계 추출 : 문장관계추출 주요 프레임워크- Natural Language Tool Kit (NLTK): 전통적인 NLP 기법을 구현한 패키지 모음: 다양한 텍스트 데이터 제공! (대부분 영어) - ..
토픽 모델링 (Topic Modeling)- 토픽 (Topic) : 문서 집합 안에서 논의되는 주제나 개념을 의미- 모델링 (Modeling) : 통계적인 방법으로 데이터의 패턴을 추출하는 과정 즉, 토픽 모델링이란대규모 텍스트 데이터에 존재하는 다양한 주제를 자동으로 식별하고 분류하는 과정. 이를 통해 데이터 안에 숨겨진 주제 구조를 발견하고 이해하는 목적=> 텍스트 마이닝, 자연어 처리, 정보 검색 등 다양한 분야에서 활용 토픽 모델링의 주제: 일반적으로 단어의 집합으로 표현. 텍스트 내의 특정 패턴이나 빈도를 기반으로 선택 - 데이터 소스에 따라 주제의 범위가 결정됨ex. 뉴스 기사, 소셜 미디어, 학술 논문 등 - 데이터의 트렌드와 특정 이벤트를 반영하는 경향 - 특정 주제와 비슷한 텍스트만 추려..