< 2주차 데이터 분석 소개(5) >
5-1. 데이터 관련 주의해야할 이슈들
데이터를 통한 가치 창출이란 긍정적인 부분 이외에 부정적인 부분들에 대해 개인적인 경험을 바탕으로 정리해보자.
데이터 관련한 최근 변화
- 데이터 소스와 양의 폭발적인 증가
: Data Warehouse -> 데이터 생성 및 활용 증가 -> 데이터 양 증가
-> Data Lake 필요(데이터 웨어하우스보다 경제적이고 큰 스토리지)
- 모든 조직에서 데이터 생성과 사용 증가
-> 이전에는 데이터에 접근할 수 있는 사람, 기업이 적었지만, 요즘은 거의 모든 조직, 사람, 기업에서 데이터를 사용함
==> 시티즌 데이터 분석가 / 과학자
: Data Decentralization
- 데이터 사용자의 폭발적인 증가
: Data Democratization
: SQL / Dashboard skill
- 클라우드 기본 사용
- 개인정보 보호법의 강화
===> 새로운 형태의 데이터 관리를 필요로 함
다양한 데이터 관련 이슈들이 발생함
- 무분별한 개인 정보 전파
: 데이터를 여러군데 저장하게되어 관리가 안됨.
: 한 번 테이블에 노출되면 새로생기는 다른 테이블로 전파될 확률이 높아짐.
-> 그러한 개인정보 데이터를 한 번 쓰기 시작하면, 나중에 삭제하기 어려워짐
=> 데이터를 삭제하는 순간 뒤의 프로세스들이 제대로 동작하지 않기 때문.
==> 이를 방지하기 위해서는 데이터에 대한 정확한 파악이 필요함. 접근자 제한
<해법 예>
- 개인 정보 정의(PII)와 개인 정보를 생성 시점부터 태깅
- 개인 정보 접근 권한 제어와 로깅 -> 감사 가능 => 누가 접근하는지 확인, 꼭 필요한 사람만 접근할 수 있게 함
- 특정 개인 정보 추출과 삭제 자동화 => 개인이 삭제를 요청하면 언제든 삭제해야함.
- 같은 데이터, 다른 해석
: 같은 데이터로 다른 해석이 나올 수 있음
- 지표(KPI)등의 정확한 정의 사전 필요 -> 데이터 사전 혹은 데이터 용어집
=> 같은 지표로 자의적으로 해석하는 일, 혹은 불필요한 노력을 없앰
: “매출(Revenue)", “활성 사용자 (Active User)"
: 데이터 소스, 필터링 등의 조건이 명확해야함 -> 데이터 기반 계산 공식
- 같은 데이터를 기반으로 사용해야함
: 각 지표 계산에서 바탕이 되는 데이터는 무엇인가? Source of Truth
: Being consistent is more important than being correct
- 너무 많은 대시보드와 비슷한 테이블들
: 데이터 조직이 커지면 발생할 수 있는 문제
- Data Democratization(데이터 민주화)은 정보 과잉으로 이어지기 쉬움
: 대시보드, 테이블을 찾는게 어려워짐 --> 제대로 찾기 못해 불필요한 노력, 시간, 비용이 들게됨
==> 데이터 카탈로그를 도입하여, 어떤 테이블이 있는지 등을 확인 (검색 엔진)
==> Data Discovery 이슈
: Data 관련 요청의 과반수 이상 차지
- Data Infra 비용 증가
: 빅데이터 스케일에서 비슷한 정보의 반복처리 엄청난 비용 증가를 가져옴
<해법 예>
: Data Catalog의 도입
-> 자동화 솔루션을 통해 메타 데이터부터 관리
-> 데이터셋 오너 지정
-> 주기적인 데이터/대시보드 청소작업
- 불분명한 데이터 오너십
: 본인들이 만든/분석한 데이터에 책임이 있어야함. 문제 발생 파악, 삭제 등
- 데이터 양의 증가는 보통 데이터 품질 이슈로 이어짐
: 데이터 품질 이슈는 데이터 셋의 불분명한 오너십과 밀접 관련
: 누가 특정 데이터셋의 오너인가? ==> 이를 알아야 문제가 생겼을 때 파악 가능
-> 내부 데이터 (ETL)
-> 외부 데이터 (ETL)
-> 내부/외부 데이터를 바탕으로 만들어진 데이터 (ELT)
- What data do we have?
: 메타 데이터부터 관리를 시작
- 메타 데이터의 부족
: 어떠한 데이터에 대한 설명을 담은 메타 데이터. 검색, 파악이 쉬워짐
- Source of Truth가 무엇인가?
- 특정 데이터셋의 경우
: 누가 주인인가?
: 어떻게 생성된 데이터인지 알 수 없음
- Upstream 데이터를 변경하는 경우 확신이 없음
: downstream 어디가 고장날지 알 수 없음
<해법 예>
: 중요 데이터별로 오너 지정 (책임자 지정)
: 데이터별로 다양한 태그 혹은 분류체계 적용 (예: PII)
: 데이터 리니지 자동 파악 ( * 데이터 리니지 = 데이터가 어디에 쓰였는지의 과정)
- 조직이 커지면서 Data Silo 발생
: 데이터를 만들고 분석한 후 공유를 안하는 문제, 중복 생성하는 등의 문제가 발생함. 데이터를 권력으로 사용하는 경우도 많
음
- 앞서 이슈가 증폭됨
- 비슷한 일을 여러 팀에서 반복
: 동일 데이터를 여러 조직에서 중복 수집하고 처리 -> 여러가지 해석이 나옴. 비용 증가
- 데이터 독점이 권력이 되기도 함
<해법 예>
: 조직 전반에 걸친 메타 데이터 관리/유지
: Data Mesh가 하나의 해법이 될 수 있음
( * Data Mesh : 팀별로 데이터 시스템 유지 허용. 그러나 그 데이터를 모든 팀에 보여야함 )
-> Monolithic Data Lake to Distributed Data Mesh (하지만 아직은 초기 단계의 기술 -> 실질적으로 잘 하진 않음)
5-2. 개인정보와 보호
개인식별 정보
- PII (Personally Identifiable Information)
- 말 그대로 개인을 식별할 수 있는 정보
- 개인식별 정보의 예
-> 이를 알면 바로 어떤 사람인지 알 수 있음
: 성명(성/이름), 이메일주소, 전화번호, 주소, 신용카드정보 등등
(성명은 동명이인이 많기 때문에 살짝 애매)
- 개인식별 정보의 다른 예
-> 몇가지 조합으로 개인을 식별할 수 있는 경우 (준식별자)
: 나이, 사는 도시, 직장
개인식별 정보의 정의 - 대한민국
- 개인정보보호법 제2조 1항
: "개인정보"란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다)를 말한다
- 정보통신망법 제2조 6항
: "개인정보"란 생존하는 개인에 관한 정보로서 성명ᆞ주민등록번호등에 의하여 특정한 개인을 알아볼 수 있는 부호ᆞ문자ᆞ 음성ᆞ음향 및 영상 등의 정보(해당 정보만으로는 특정 개인을 알아볼 수 없어도 다른 정보와 쉽게 결합하여 알아볼 수 있는 경우에는 그 정보를 포함한다)를 말한다
* 한국의 경우 개인정보를 살아있는 개인에 관한 정보만을 의미함. 미국의 경우 사후 50년 정도까지 보장.
* 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다 -> 준식별자.
개인식별 정보의 정의 - 미국 (CCPA)
- information that identifies, relates to, describes, is capable of being associated with, or could reasonably be linked, directly or indirectly, with a particular consumer or household.
: Internet or network activity information, such as browsing history or search history
: Inferences drawn from other personal information to create a profile about a consumer reflecting the consumer’s preferences, characteristics, psychological trends, predispositions, behavior, attitudes, intelligence, abilities, and aptitudes
* 어떤 개인에 대한 정보 뿐만 아니라 어떤 가족을 특정하는 경우 또한 개인정보로 보장함
개인식별 정보의 정의 - 유럽연합
- Article 2a: 'personal data' shall mean any information relating to an identified or identifiable natural person ('data subject'); an identifiable person is one who can be identified, directly or indirectly, in particular by reference to an identification number or to one or more factors specific to his physical, physiological, mental, economic, cultural or social identity;
* 한국과 크게 다르지 않음
개인정보 보호
: 개인정보를 활용하기 위해서는 필수적으로 동의를 받아야함.
- 개인의 정보를 적절한 동의없이 저장하고 사용하지 않는 것
- 개인의 정보를 적절한 동의없이 노출하거나 배포하지 않는 것
- 보호를 위한 다양한 법률이 전세계적으로 만들어지고 있음
- 해당 법률 준수가 데이터 카탈로그/거버넌스 도입의 가장 큰 이유 => 개인정보 보호가 안되면, 평판, 벌금이 크기 때문
- 또한 개인의 정보주체권이 중요시되는 추세 (Data as a Property Right )
=> 광고 추천 시스템 또한 개인의 정보를 활용해서 돈을 벌었기 때문에 수익 주체에 대한 문제가 발생함
(개인의 정보를 얻었기 때문에 수익을 개인에게도 나눠줘야 하는 것이 아닌가? )
-> Gen AI와 같은 기술이 발전하면서 증가한 권리
개인정보 보호법
- 국내
: 개인정보 보호법, 통신사업자 대상의 정보통신망법
: 클라우드 컴퓨팅법
- 미국
: CCPA (California Consumer Privacy Act) / CPRA (California Privacy Rights Act)
: HIPAA (Health Insurance Portability and Accountability Act)
: ePHI (Protected Health Information) and EHR - > * PHI : 개인식별자
: Cloud Act, Honest Ads Act, FOSTA, FCC Regulation
- 유럽연합 -> 개인정보 보호의 선두주자
: GDPR
개인정보 관련 법률 요약
- 개인정보 보호 관련 법령 통합해설서
: (개인을 알아볼 수 있는 정보) 특정 개인을 알아보기 어려운 정보는 개인정보가 아님
- 아래 의무 수행시 클라우드에도 개인정보 적재및 처리가능
: 개인정보 수집방법, 내용, 목적, 사전고지 및 동의! -> 사전동의를 받으면 저장, 활용에 문제가 없음
: 개인정보 위탁(AWS,GCP등)에 대한 사전고지
: 데이터 해외 이전시 추가고지
- 국내리전 사용시 불필요
- 저장 및 전송시 암호화 필요한 정보 -> 중간과정에서의 네트워크 스내핑 방지
: 비밀번호, 바이오 정보, 주민번호, 신용카드번호, …
: 계좌정보, 여권번호, 외국인 등록번호
개인정보 수집 항목: 삼성전자
삼성전자에서는 위의 고지사항에 대한 내용이 약관으로 존재되어 있음
-> 서비스 이용 기록, 구매기록, AS 관련 정보를 저장한다는 내용
(로그데이터, 쿠키, 이용시간 등)
- 위치정보, 음성정보의 경우 별도 동의를 받고 있음.
- 클라우드로 AWS를 사용하기 때문에 해외에 데이터가 백업된다는 추가 내용을 고지하고 있음
내부자 vs. 외부 위협
- 내부 사람들의 단순한 실수에서 비롯된 Data Leak
--> 해커에 의해 개인정보가 노출되는 것처럼 내부 사람들의 실수에 의한 개인정보 노출도 꽤 많음
: 기관에 따라 14% - 37%로 예측 (더 높을 것임)
: 예) 구글 문서 공유 세팅 실수 -> 외부 사람 및 모든 내부 사람들이 모두 확인 가능하게 세팅함 -> 개인정보 노출
- 외부 위협의 예
: 해커, 랜섬웨어 (직원 컴퓨터 램섬웨어 해킹)
: 사이버 범죄조직, 국가 후원조직 (러시아, 북한 등에서는 국가에서 해킹을 후원하기도 함..!)
보호가 필요한 중요 정보가 무엇인가? 이런 정보들이 정말 우리에게 필요한 정보인가? 이 정보에 대한 접근이 정말로 필요한 사람은 누구인가? 이 사람들이 정말로 해당 정보가 필요할 때 접근을 하는가? 이런 접근들이 모두 기록이 되는가? 기록을 주기적으로 감사하는가?
==> 다양한 개인정보 노출이 있지만, 많은 기업/사람이 개인정보 노출된 것을 모르는 경우도 많음
5-3. 개인정보 보호법
- GDPR을 중심으로 개인정보 보호법에 대해 알아보자.
GDPR이란?
- 2018년 5월 25일부터 시행된 유럽연합의 개인정보보호 법령
- 유럽연합내 모든 회원국에 일괄 적용 (더 이상 권고가 아님)
- 적용 대상 기업
: 유럽연합 내의 회사가 아니어도 적용가능
- > EU 사용자가 있는 웹서비스의 경우 모두 적용대상이 됨
==> 글로벌하게 서비스되는 모든 회사, 사이트들이 모두 GDPR을 준수해야함!!
: 많은 글로벌 회사들이 GDPR 준수를 위해 엄청난 노력을 기울임
- > 데이터 카탈로그, 데이터 거버넌스
GDPR 위반시 페널티
- 동 법령 위반시 과징금 등 행정처분
- 레벨 1 : 일반적 위반사항
: 대리인 미지정 위반, 유출 통지 위반, 개인정보 처리활동 기록 위반 등
: 전 세계 매출액 2% (전해 기준) 또는 1천만 유로(약 125억원) 중 높은 금액
- 레벨 2 : 중요한 위반사항
: 국외이전 규정 위반, 개인정보처리 기본원칙 위반, 정보주체의 권리 보장 의무 위반(GDPR의 혁신적인 법령) 등
: 전 세계 매출액 4% (전해 기준) 또는 2천만 유로(약 250억원) 중 높은 금액
구글과 유럽연합의 역사
- EU Data Retention Policy (2006) (개인정보 9개월이상 보존하지 말라는 정책을 구글이 지키지 않음)
- Google's $2.7 billion (3조 이상) EU fine will help innovation, competition commissioner says (2017/11)
: 2010년부터 시작된 구글의 자사 쇼핑검색 결과의 특혜에 관한 논쟁 -> 자사쇼핑결과를 앞단에 보여주는 것이 위반이 된다는 내용. 순전히 알고리즘을 통해 보여야한다! -> 이를 기반으로 과징금 부여
- Google fined a record $5 billion by the EU for Android antitrust violations (2018/07)
: 안드로이드 독점과 관련된 벌금
- Google AdSense antitrust violations 1.49 Euro (2019)
: 광고 독점에 관한 벌금
- Google Fined $57M by Data Protection Watchdog Over GDPR Violations
GDPR 세부사항
- 이전보다 동의 요건 강화 (서비스 약관)되었고 아동정보에 대해 더 강한 보호
- 민감정보의 처리는 원칙금지 (회원국에 따라 달라짐)
- 정보주체의 권리 강화 (회사들은 30일내에 응답해야함)
- > 삭제권
: 정보주체는 본인에 관한 개인정보 삭제를 요구할 권리를 가짐
ex. 어떤 기업에 개인정보 삭제를 요청 했을 때 30일내에 삭제해야함
- > 프로파일링 거부권
: 정보주체는 본인에게 중대한 영향을 미치는 사안을 프로파일링 등 자동화된 처리에 의해서만 결정하는 것에 반대할 권리를 가짐
ex. 내 정보를 사용해 추천시스템을 만드는 것을 거부할 수 있는 권리
- > 처리제한권(신설)
: 정보주체는 본인에 관한 개인정보의 처리를 차단하거나 제한을 요구할 권리를 가짐
ex. 나의 정보를 이제부터 기록하지 말라는 요구. 특정정보는 사용하지 말라고 요구
- > 정보이동권(신설)
: 정보주체는 본인의 개인정보를 본인 또는 다른 사업자에게 전송토록 요구할 권리를 가짐
ex. 모든 개인정보를 다른 사이트에 그대로 넘길 수 있다는 권리.
구글/페이스북/마이크로소프트가 아는 내 정보 찾아보기
- 큰 회사들은 셀프 서비스 시스템을 만들어 대응
--> 우리가 지킬 수 있는 권리가 너무 많기 때문에 셀프 서비스 시스템을 통해 대응
- 구글 ▪ https://takeout.google.com/?pli=1
- 페이스북 ▪ Accessing & Downloading Your Information --> 포스팅했던 모든 글, 사진을 다운받을 수 있음
마이크로소프트 ▪ http://account.microsoft.com/privacy
GDPR vs. CCPA
GDPR : 유럽연합 법률
CCPA : 미국 캘리포니아 법률
- 매우 흡사한데 가장 큰 차이점은 CCPA의 경우 캘리포니아 거주민으로 국한
==> 캘리포니아에 거주하는 사람들이 사용하는 모든 서비스가 준수 필요
- CCPA는 2020년 1월 1일부터 효력 발효
: 미국향 회사들의 Compliance와 관련된 데이터 거버넌스 활동 증가
- CCPA의 개인 정보 정의
: “information that identifies, relates to, describes, is capable of being associated with, or could reasonably be linked, directly or indirectly, with a particular consumer or household.”
: 개인 정보가 개인으로만 국한된 것이 아니라 가구(household)까지 확대됨
- 2023년 1월 CCPA는 CPRA(California Privacy Rights Act)로 개정됨
: GDPR과 비슷하게 개인의 정보주체권을 강조
HIPAA
- Health Insurance Portability and Accountability Act
- 다음의 개인 의료 정보 보호를 목적으로 하며 1996년부터 효력 발표
- ePHI (electronic Protected Health Information) -> 개인의 의료정보가 무엇인지 18개로 정의
: Any information that can identify an individual
: There are 18 of them
: Personal information:
- Names, addresses, birth date, phone numbers, emails, SSN, license numbers, IP addresses, …
: Medical information
: Medical record numbers, account numbers, biometric information (finger-prints)
- EHR (Electronic health record) -> 이 곳에 의료정보를 기록해놔야함.
: Patient’s clinical information (진찰/처방/입원 기록)
==> 정보의 최신성 문제(의료정보가 기록되는데 오래 걸림), 정형화된 구조가 없어 병원/의사에 따라 다양한 형태로 기록됨 등의 문제가 발생함
HIPAA Penalty
- 2가지 종류가 존재: Reasonable Cause and Willful Neglect
: Reasonable Cause (합리적인 이유가 있는 경우)
-> Ranges from $100 to $50,000 per incident and does not involve any jail time
(위반된 건 수 마다 벌금이 부과됨)
: Willful Neglect. (의도적인 경우)
: Ranges from $10,000 to $50,000 for each incident and can result in criminal charges
(감옥에 갈 수 있음)
- 원칙적으로는 CCPA나 GDPR과 흡사
: Data Encryption -> Device theft, Email Encryption
: Employee Training
- 개인의 사후 50년동안 보호해야할 의무 존재
'STUDY > DevCourse' 카테고리의 다른 글
[데브코스][데이터 분석] Excel을 활용한 다양한 데이터 분석 실습 (3), (4) (1) | 2024.02.29 |
---|---|
[데브코스][데이터 분석] Excel을 활용한 다양한 데이터 분석 실습 (1), (2) (0) | 2024.02.26 |
[데브코스][데이터 분석] Gen AI를 이용한 생산성 증대 (0) | 2024.02.22 |
[데브코스][데이터 분석] 데이터 기반 제품 개선 (0) | 2024.02.21 |
[데브코스][데이터 분석] 데이터 기반 의사 결정 (0) | 2024.02.19 |