< 13주차 텍스트 데이터 마이닝 >
텍스트 마이닝이란?
텍스트 데이터
: 웹사이트, SNS, 책, 학술정보, 이메일 등 다양한 출처에서 발생
- 시장 변화를 파악하고 대응할 수 있는 확인 창구
- 고객의 요구 사항과 피드백 파악 가능
텍스트 데이터의 특징
: 텍스트 데이터를 구성하는 요소를 기준으로 단어는 주변의 단어들과의 연관성이 존재
=> 이 연관성을 이해하는 방향으로 텍스트 데이터 처리 필요
그러나 아래와 같은 이유로 어려움 존재
- 비구조적 데이터(비정형)
- 다양성 : 같은 의미라도 여러 표현 존재
- 다의성 : 같은 표현이 다른 의미로 사용
- 문맥 정보가 존재
- 언어별로 고유한 특징 존재
텍스트 마이닝
* 마이닝 (채굴) : 대량의 데이터(광물)에서 유용한 정보와 패턴(자원)을 찾기 위한 채굴이 필요
-> 이렇게 채굴된 정보와 패턴으로 통찰력을 얻고, 의사 결정을 진행
즉, 텍스트 마이닝이란
대용량의 텍스트 안에 존재하는 관계, 패턴, 규칙을 탐색하여
이로부터 지식과 인사이트를 추출해 의사결정에 활용하는 일련의 과정을 의미
대용량의 텍스트 -> 텍스트 추출 -> 전처리 -> 텍스트 마이닝 -> 해석 및 평가
자연어 처리(Natural Language Processing, NLP)
자연어 처리란 컴퓨터가 인간의 언어를 이해하고 해석하는데 사용되는 분야.
-> 컴퓨터 과학, 인공지능, 언어학의 개념 사용
- NLP의 목적은 인간 언어의 구조와 의미 이해를 바탕으로
글을 활용한 문제 해결, 향상된 사용자 경험을 제공하고자 함. (ChatGPT)
대규모 텍스트 데이터 내의 존재하는 패턴, 관계, 정보를 발견하고 분석하는 텍스트 마이닝과 다름
NLP : 언어의 이해
Text Mining : 언어 속 내포된 정보 파악
텍스트 마이닝의 패키지
- Pandas
- Gensim : 전처리 과정인 임베딩 과정 지원
- nltk : 자연어를 다루는데 유용한 툴킷
텍스트 마이닝 절차
텍스트 수집 및 추출
다음과 같은 방법으로 데이터 수집 가능
- 웹 크롤링 : 웹에 존재하는 텍스트 데이터 수집(Selenium, BeautifulSoup, Scrapy 등)
- API 사용 : 대형 플랫폼에서는 데이터 제공을 위한 API 제공
- 공개 데이터 : 기관, 기업 등에서 제공하는 공개 데이터
=> 원시의 데이터는 쓸 수 없는 형태의 데이터 존재(비구조화)
=> 목표 관련성이 높은 글, 다양성이 확보되는 글을 주기적으로 모니터링 해야함.
텍스트 전처리
전처리 과정을 통해 데이터를 정제하고 분석이 가능한 형태로 변환해야함.
- 노이즈 값 제거 : 원시 데이터의 이모티콘, 오타, 비속어 등 제거 or 수정
- 분석에 필요한 최소 단위로 글 분류
: 단어 기반, 문장 기반 등 사용하는 정보의 단위가 다름
-> 원하는 정보의 단위로 글 분리(Tokenize)하고 컴퓨터가 이해할 수 있는 형태로 변환(Embedding)
- 글 길이 조절
: 글을 동일한 형태로 변경해야됨. 길면 자르거나, 짧으면 복제 or 다른 글과 통합 혹은 dummy 값 추가
텍스트 마이닝 기법 적용
: 전처리 이후의 단계로, 데이터로부터 유의미한 정보를 추출하고 인사이트를 도출하는 과정
- 내용 파악 및 분석
: 자연어 이해(글의 의미와 의도 파악), 요약, 개체명 인식(인물, 장소 등 식별)
- 숨겨진 의미 파악
: 토픽 모델링(주제 발견), 트렌드 분석(시간에 따른 데이터 변화 분석, 패턴, 변화 식별), 감정 분석
- 관계 파악 및 구조화
: 군집화(비슷한 의미의 글 그룹화), 글 분류(특정 범주로 분류)
텍스트 마이닝 결과 분석
: 분석된 결과를 정보 이해, 통찰 도출, 의사 결정 과정에서 사용
- 정보 이해
: 텍스트의 전반적인 내용 파악, 글의 패턴과 흐름 파악
ex. 제품 사용자 중 40대의 반응을 보고 제품 사용 관점의 키워드 파악
- 통찰 도출
: 데이터 안에 숨어있는 연결 정보 추출, 숨은 정보를 추출하는 기술적인 모델 필요
ex. 제품에 대한 긍정적인 포인트와 부정적인 포인트 이해 필요
- 의사 결정
: 통찰을 바탕으로 비즈니스 전략, 제품 개발, 마케팅 등의 의사 결정 과정에서 활용
ex. 부정적인 부분 개발 및 이를 적극적으로 마케팅에 활용
텍스트 마이닝 적용 사례
FAQ
: 사용자가 자주 겪는 문제나 궁금증을 답변으로 모아 놓은 목록
CS, 고객 피드백, 리뷰 등에서 수집된 질문-답변의 패턴을 식별 및 분석
-> 지속적인 업데이트로 서비스 개선
책에 밑줄 긋기
: 과거 정보들을 바탕으로 중요한 내용이 무엇인지 판단.
목적에 맞는 밑줄 긋기 -> 시험에 나오거나 인사이트를 주는 포인트
=> 다시 읽는 시점에 중요한 정보 빠르게 제공, 정보 정리 효과적
심리 분석
: 환자로부터 나온 글 내용 속 단어, 문구, 분위기를 바탕으로
그의 심리상태, 감정변화, 중요한 사건이나 패턴 파악
-> 환자의 감정 상태 파악 -> 그래프와 차트 형태의 시각화 가능
신문 스크래핑
: 관심있는 주제와 관련된 내용을 인식하는 과정 필요
-> 특정 개체의 이름, 관심 이슈 등
-> 최신 데이터 추적 가능 & 관심 분야의 패턴 확인 가능 -> 효과적인 의사결정 가능
네이버 검색 트렌드
: 검색어 단어의 발현 횟수를 기반으로 트렌드 확인
-> 사람들의 관심사, 전 국민적인 이슈 등 파악 가능
'STUDY > DevCourse' 카테고리의 다른 글
[데브코스][데이터 분석] 감정 분석 (0) | 2024.05.14 |
---|---|
[데브코스][데이터 분석] 단어 임베딩과 문장 임베딩 (0) | 2024.05.14 |
[데브코스][데이터 분석] SageMaker 소개 및 실습 (0) | 2024.05.03 |
[데브코스][데이터 분석] ML 모델 개발 절차 및 프레임워크 (0) | 2024.05.02 |
[데브코스][데이터 분석] Regression 모델 만들기 (1) | 2024.05.02 |