본문 바로가기
취미/자격증

[데이터분석 전문가/준전문가] 과목 1 - 2 장 - 데이터의 가치와 미래

by UltraLowTemp-Physics 2020. 11. 17.
728x90

개인적으로 한국데이터산업진흥원에서 출판한 데이터 분석 전문가 가이드를 읽으면서 정리한 내용입니다.


제 1 절 빅데이터의 이해


1. 정의 

1) Big + Data (큰 데이터)
2) 매우 큰 데이터 양과 증가된 복잡성으로 인해 기존의 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터 세트의 집합 
3) 정의 

정의한 곳  정의
McKinsey, 2011 • 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
• 일반적인 빅데이터의 정의
• 활용하는 데이터의 규모에 중점을 둔 정의
IDC, 2011 • 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술 및 아키텍처
• 데이터의 규모보다 분석 비용 및 기술에 초점을 맞춘 정의
Gartner group + Dong Laney 빅데이터의 특징, 3V
• Volume: 데이터의 양
• Variety: 데이터 유형과 소스 측면의 다양성
• Velocity: 데이터 수집과 처리 측면에서 속도
마이어-쇤베르거와쿠기어의 정의 • 빅데이터란 대용량 데이터를 활용해 기존의 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일.
• 빅데이터를 활용하여 시장,기업,정부 등에서 변화와 혁신을 가져오는 일
• 빅데이터로 인해 나타나는 사회/정치/경제/문화적 변화를 포착하기 위해 추상적이고 포괄적으로 빅데이터를 정의

  → 빅데이터란 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 것들을 크고 다양한 데이터를 결합, 처리함으로써 새롭게 가치를 창출하는 모든 것  

4) 빅데이터의 정의의 범주 및 효과

데이터의 변화
(좁은 범위의 빅데이터 정의)
+ 기술 변화
(중간 범위의 정의)
+ 인재/조직 변화
(넓은 범위의 정의)
• Volume: 규모
• Variety: 형태
• Velocity: 속도
• 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처
• 클라우드 컴퓨팅 활용
• Data scientist와 같은 새로운 인재 필요
• 데이터 중심 조직

2. 출현 배경

- 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 가르킴 (데이터를 다루는 패러다임의 변화)
- 빅데이터 출현 배경

출현배경 설명
산업계 고객 데이터 축적 (양진 전환 법칙)
: 기업들이 보유한 데이터가 “거대한 가치 창출이 가능할 만큼 충분한 규모”에 도달하였고, 빅데이터와 같은 기술과 접목함으로써 거대 가치 창출이 가능해짐
예시
1) 미국 테스코: 매달 15억 건 이상의 고객 데이터를 수집
2) 액시엄(Acxiom): 전세계 5억명, 미국인 96%에 관한 데이터를 150여개 항목에 대해 보관
학계 거대 데이터 활용 과학 확산
예시)
1) 인간 게놈 프로젝트
2) 스위스 대형 강입자 충돌기
3) 나사의 기후 시뮬레이션
관련기술 발전 디지털화, 저장 기술: 기술의 발전으로 인한 비용 감소
인터넷 보급: 인터넷 사업 모델 측면
 모바일 혁명: 모바일 단말기를 이용하여 SNS를 포함하여 다량의 정보를 생산
 클라우드 컴퓨팅: 빅데이터의 처리비용을 획기적으로 낮춤

 

3. 빅데이터 기능

빅데이터 기능 (비유) 설명
산업혁명의 석탄,철  빅데이터가 지금의 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 혁명적인 변화를 가져올 것으로 기대
21세기의 원유  각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 기대
렌즈  현미경이 생물학 발전에 미친 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것으로 기대
ex) 구글의 Ngram viewer
미국을 뜻하는 “The United States”의 문법적 변화(초기 복수형에서 후기 단수형)으로의 변화를 구글의 Ngram viewer를 통해서 추적할 수 있으며, 이는 구글이 수천만권의 책을 디지털화해서 서비스를 했기에 가능함.
플랫폼  다양한 사업자들이 공동으로 사용하는 플렛폼을 빅데이터의 형태로 제공할 것으로 예상
 각종 사용자의 데이터나 M2M 센서 등에서 수집된 데이터를 가공/처리/저장해두고 이 데이터에 접근할 수 있도록 API를 공개한다. 그러면 다양한 서드파티 사업자들이 비즈니스에 필요한 정보를 추출해 활용하고, 빅데이터는 그 자체로 플랫폼 역할을 하게 된다.

 

4. 빅데이터가 만들어 내는 본질적인 변화

변화 설명
사전처리 → 사후처리 • 정보의 사전처리: 산업혁명 시절 비약적으로 증가한 정보를 처리하기 위한 방법으로써, 필요한 정보만 수집하고 필요하지 않는 정보는 버린다. 이를 통해 정보 관리비용을 줄인다.
ex) 표준화된 문서 포맷
• 빅데이터의 사후처리
이미 가치가 있을 것이라고 정해진 특정 정보만 모아서 처리하는 것이 아니라, 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
ex) 구글의 사용자 로그데이터를 이용한 광고 매칭
표본조사 → 전수조사 • 전수 조사의 보편화
기존의 데이터 수집비용, 대용량 데이터 처리도구, 비용 등은 빅데이터 시대에서
1) 데이터의 수집비용이 문제되지 않을 만큼 폭발적으로 데이터량 증가
2) 클라우드 컴퓨팅으로 인한 데이터 처리비용 감소
3) 거대한 데이터를 다룰 수 있는 툴들의 등장
• 전수 조사의 장점
- 기존의 샘플링 방법이 주지 못하는 패턴이나 정보를 제공해줌
- 이를 통해 데이터의 활용성 측면에서 다양한 방식으로 데이터를 재가공할 수 있기에 활용의 융통성이 유지
질 → 양 • 데이터의 질보다는 양을 강조
• 예시) 구글의 자동 번역 시스템
  - IBM: 고도로 정교하게 번역된 말뭉치를 중심으로 데이터베이스 구축
  - 구글: 오역이 있는 웹사이트 정보까지 모두 수용
  - IBM에 비해 구글의 데이터베이스는 수백배에 이름
• 빅데이터에서 질보다 양이 중요한 이유
 - 데이터의 숫자가 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문
인과관계 → 상관관계 • 비즈니스에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많음
- 인과관계 분석, 혹은 이론 분석은 부수적이고 추후에 해도 되는 작업일 수 있음
- 예시: 아비바(Aviva)라는 보험회사
1) 해당 회사는 보험 가입자들의 신용 평가보고서와 소비자 마케팅 데이터를 활용해 혈액 및 소변검사 없이 고혈압, 당뇨, 우울증과 같은 질병에 걸릴 확률을 예측
2) 이때, 소득 추정치, 취미, 방문하는 웹사이트 등과 질병과의 상관관계를 확인함

제 2절 빅데이터의 가치와 영향


1. 빅데이터의 가치

- 빅데이터 시대에서 특정 데이터의 가치를 측정하기 어려운 이유: 데이터의 활용방식, 가치창출 방식, 분석 기술의 발전

데이터 활용방식

- 재사용, 재조합, 다목적용 개발이 일반화되면서 특정 데이터를 누가/언제/어디서 활용하는지 알 수 없음 → 가치 산정의 어려움
■ 재사용: 본래의 목적 이외의 부분에서도 활용되면서 가치를 창출
ex) 구글의 검색기록: 검색기록(데이터)를 한번만 이용하고 삭제하는 것이 아니라, 다른 서비스를 창출하는 자료로 활용됨
ex) 전기 자동차의 인프라 구축: 전기 자동차의 베터리 정보는 최적의 전기 충전소의 위치를 선정하는데 필요한 데이터
■ 재조합: 기존에 풀 수 없었던 문제를 해결하는데 도움을 줌
ex) 휴대전화의 전자파와 뇌종양의 상관관계: 1990~2007년간 데이터를 통해 상관관계가 없음을 밝혀냄

■ 다목적용 개발
ex) 절도범을 구별할 뿐만 아니라 고객의 구매 정보도 동시에 얻을 수 있는 곳에 CCTV를 설치
가치 창출 방식 - 데이터가 기존에 없던 가치를 창출하므로 가치를 산정하기 어려움
ex) 아마존의 킨들에 쌓이는 전자책 읽기 데이터
ex) 페이스북의 친구관계인 사람들의 행동 분석
분석 기술의 발전 - 분석 비용이 높아 분석할 수 없었던, 빅데이터를 클라우드 분산 컴퓨팅에서 저렴한 비용에 분석하면서 그 활용도가 증가하는 것
ex) 페이스북과 같은 sns에서의 비정형 데이터를 분석하는 것

2. 빅데이터의 영향

맥킨지의 빅데이터가 가치를 만들어내는 다섯가지 방식
  1) 투명성 제고로 연구개발 및 관리 효율성 제고
  2) 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
  3) 고객 세분화 및 맞춤 서비스 제공
  4) 알고리즘을 활용한 의사결정 보조 혹은 대체
  5) 비즈니스 모델과 제품, 서비스의 혁신

빅데이터의 가치 창출을 통해 기업/정부/소비자에게 미치는 영향

대상 영향
기업 - 혁신, 경쟁력, 생산성 향상
- 빅데이터를 활용하여
  1) 소비자의 행동 분석
  2) 시장변동을 예측하는 비즈니스 모델을 혁신
  3) 신사업 발굴
정부 - 환경을 탐색/분석 후, 잠재적 문제점에 대한 대응 방안을 제시
- 환경 탐색, 상황 분석, 미례 예측
소비자 - 기업과 정부가 빅데이터 활용으로 얻은 효용이 전이되 생활 전반이 스마트하게 변화

제 3절 비즈니스 모델


1. 빅데이터 활용 사례

활용 대상 활용
기업에서의
빅데이터 활용
■ 대표적인 기업 사례1: 구글의 검색
- 사용자의 데이터 로그를 활용하여 기존 페이지 랭크 알고리즘을 혁신함.
■ 대표적인 기업 사례2: 월마트
- 고객의 구매 패턴을 분석해 상품 진열에 활용
ex) 허리케인이 올 때, 손전등과 비상등을 함께 진열해 매출증대
■ 잠재적인 사례: 의료분야의 개선
- 맥킨지에 따르면 미국의 의료분야에 빅데이터가 활용될 경우, 연간 약 3300억 달러가 절약될 것이라고 평가함
정부에서의
빅데이터 활용
- 다양한 분야에서 대국민 서비스 개선을 위해 빅데이터 활용
ex) 실시간 교통 수집, 기후 정보, 각종 지질활동, 소방서비스를 위한 모니터링
ex) NSA가 소셜 미디어, CCTV, 통화기록등을 모니터링한 결과로 국가 보안에 대한 활동 실시
개인 차원에서
빅데이터 활용
- 정치인과 가수
1) 정치인
 • 선거 승리를 위해 사회 관계망 분석을 통해 유세 지역을 선정
 • 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정
2) 가수
 • 팬들의 음악 청취 기록을 분석하여 공연에서 부를 노래 순서를 선정하는데 활용

 

2. 빅데이터 활용 기본 테크닉

빅데이터 비즈니스 모델에 활용되는 기본적인 7가지 테크닉

테크닉 설명
연관 규칙 학습  어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
ex) 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형 분석  새로운 사건이 속하게 될 범주를 찾아내는 일
 조건: 기존 자료를 바탕으로 만들어진 훈련용 분류틀이 미리 갖추어져야 함
ex) 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전 알고리즘  최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 찾는 방법
ex) 응급실에서 의사를 어떻게 배치하는 것이 가장 효과적인가?
ex) 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?
ex) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계 학습  훈련 데이터를 통해 학습된 특성을 활용해 예측하는 일에 초점을 맞춤
ex) 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어하까?
ex) 이메일에서 스팸 메일을 걸러내는데 활용
ex) 사용자의 기호를 학습해 추천서비스를 제공
회귀 분석  독립변수를 조작하여 종속 변수가 어떻게 변하는지를 보면서 두 변인 사이의 관계를 파악할 때 사용됨
ex) 구매자의 나이가 구매 차량의 타입에 영향을 미치는가?
ex) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
ex) 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
감정 분석  특정 주제에 대해서 말하거나 글을 쓴 사람의 감정을 분석
ex) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
ex) 호텔에서 고객의 코맨트를 받아 서비스를 개선
ex) 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아냄
소셜 네트워크 분석
ex) 특정인과 다른 사람은 몇 촌정도의 관계인가?
영향력 있는 사람을 찾을 수 있음
 고객 간의 소셜 관계를 파악 가능

제 4절 위기 요인과 통제 방안


1. 위기 요인

빅데이터의 어두운 면: 사생활 침해, 책임 원칙 훼손, 데이터 오용

빅데이터의
어두운 면
설명
사생활 침해 ex) 인터넷 등 각종 경로로 정보를 수집하는 구글은 이미 이용자가 1시간 뒤에 어떤 일을 할지 87% 정확도로 예측할 수 있는 데이터와 분석 신뢰도를 확보
ex) 여행 사실을 트위터한 사람의 집에 강도가 노리는 사례
• 빅데이터 시대에서 사생활 침해가 심해지는 이유
1) M2M 시대가 본격화되면서 정보 수집 센서들의 수가 늘어남
2) 개인정보의 가치가 증가함에 따라 많은 사업자가 개인 정보 습득에 보다 많은 자원을 투자
• 문제점 1: 빅브라더
• 문제점 2:
1) 특정 데이터가 본래 목적 이외에 가공처리되어 2차/3차 목적으로 활용될 가능성이 증가
2) 사생활 침해를 넘어서 사회/경제적 위협으로 변형될 수 있음
• 정부의 정보 수집
ex) 미국의 NSA의 국민들 및 여러 나라의 국가 수반들의 정보 수집
책임 원칙 훼손 • 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 올라감
ex) 영화 “마이너리티 리포트”: 범죄 예측 프로그램에 의해 범행을 하기 전에 체포
• 민주주의 국가에서 채택한 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대한 책임을 묻고 있음. 따라서 빅데이터의 분석 결과에 따라 특정행위를 할 가능성이 높다는 이유로 처벌을 하는 것은 민주주의 사회 원칙을 크게 훼손할 수 있음
• 빅데이터 시스템에 의해 부당하게 피해를 보는 상황을 최소화할 장치를 마련하는 것이 반드시 필요
데이터 오용 • 빅데이터는 일어난 일에 대한 데이터에 의존하므로, 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없다.

2. 통제 방안

통제 방안 설명
동의에서 책임으로 • 소비자 프라이버시 보호 3대 권고 사항
   - 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
   - 기업은 소비자에게 공유 정보 선택 옵션 제공
   - 소비자에게 수집된 정보 내용 공개 및 접근권 부여
• 동의제를 책임제로 바꾸는 방안
  - 사용자 정보는 수집된 후 1차적 목적 이외에 2차/3차 목적으로 가공/유통/활용됨
  - 사생활 침해 문제를 “개인정보 제공자의 동의”를 통해 해결하기보다 “개인정보 사용자의 책임”으로 해결하는 것
결과기반 책임
원칙 고수
• 기존의 책임 원칙을 좀 더 보강하고 강화함
알고리즘 접근 허용 • 알고리즘에 대한 접근권 제공이 중요한 이슈로 부상
• 접근권 뿐만 아니라 객관적 인증방안을 도입하자는 의견이 제시
• 알고리즘이 부당함을 반증할 수 있는 방법을 명시해 공개할 것  
• 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가 (알고리즈미스트) 필요

제 5절 미래의 빅데이터


빅데이터에 필요한 기본적인 3요소: 데이터, 기술, 인력

미래의 빅데이터 설명
데이터 ■ 모든 것의 데이터화 (Datafication)
• 수많은 센서들이 인터넷에 연결되는 사물인터넷 시대 (Internet of things, IOT)
  - 웨어러블 (wearable) 단말기 확산 및 CCTV 등으로 인한 다양한 정보들이 끊임없이 생산 및 공유
• 데이터 수집을 위한 다양한 기기를 출원 중
ex) 구글: 네스트와 같은 센서 기업 뿐만 아니라 보스턴 다이나믹스와 같은 로봇회사 인수
• 특정한 목적없이 생산된 데이터라도 창의적으로 재활용되면서 가치를 만들어 낼 수 있음
ex) 편의점에서 팔린 대통령 후보 이미지가 인쇄된 컵 판매량으로부터 선거 결과 예측
• 센서로부터 수집된 데이터는 기존의 비즈니스 모델 자체를 바꿈
ex) 나이키: 신발, 의류 등에 각종 센서를 추가한 내장한 제품 출시한 후 수집된 사용자 데이터를 통해 건강 관리 등 새로운 상품을 출시
기술 ■ 진화하는 알고리즘, 인공지능 (AI)
• 구글 검색 엔진의 진화
• 넷플릭스 추천 알고리즘의 진화로 인한 추천 정확도가 증가
• M2M, IOT의 확산으로 데이터 생산량이 기하급수적으로 증가함으로써 빅데이터를 다루는 알고리즘의 효율성 역시 기하급수적으로 증가
• 구글 – 빅데이터를 활용하여 자기학습이 가능한 인공신경망 개발에 성공
1) 스스로 학습가능한 인공지능 기술은 기존의 데이터 분석법으로 처리가 불가능한 만큼 거대한 규모의 빅데이터 처리에 필수불가결한 기술
2) 인공지능 분야: 패턴 인식, 자연어 처리, 자동 제어, 기계 학습, 자동 추론, 지능 엔진, 시멘틱 웹
• 인공 지능 기술은 인간의 사고/추론/계획/학습 능력을 담아내고 있으며 빅데이터를 활용하여 인간보다 더 빠르고 정확한 판단을 내릴 수 있음
• 문제점:
1) 기계적 판단이 어느 선까지 허용되며, 어떤 방법으로 통제될 수 있는가?
2) 알고리즘과 기계적 판단이 오류를 발생시켰을 때, 이를 어떻게 해결할지에 대한 고민이 필요
인력 ■ 데이터 사이언티스트, 알고리즈미스트
• 데이터 사이언티스트:
1) 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통차력/전달력/협업 능력을 두루 갖춘 전문 인력을 의미
2) 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서의 전문가 역할
• 알고리즈미스트
1) 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요
2) 컴퓨터, 수학, 통계학뿐만 아니라 비즈니스에 대한 전반적인 이해 필요
728x90

댓글