본문 바로가기
취미/자격증

[데이터분석 전문가/준전문가] 과목 1 - 1장 - 데이터의 이해

by Physics 2020. 11. 16.
728x90

개인적으로 한국데이터산업진흥원에서 출판한 데이터 분석 전문가 가이드를 읽으면서 정리한 내용입니다.


제 1 절 데이터와 정보


1. 데이터의 정의

  1) 1946년 영국 문헌에서 데이터라는 용어가 처음 등장한 것으로 알려짐
  2) 데이터의 어원: 라틴어인 dare(주다)의 과거분사형으로서 처음 사용된 것으로 알려짐
  3) 데이터의 정의
   • 옥스포드 대사전: 데이터는 추론과 추정의 근거를 이루는 사실
     - 데이터를 단순한 객체로써 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명
     - 존재적 특성(객관적 사실) + 당위적 특성(추론/예측/전망/추정을 위한 근거)
  4) 데이터의 분류: 정성 데이터 (Qualitative data) + 정량 데이터 (Quantitative data)

 

정량데이터

정성데이터

정의

  수치/기호/도형으로 표시되는 데이터

  언어/문자 등으로 기술되는 데이터

특징

  • 온도/풍량/강우량 같이 수치로 명확히 표현
  • 데이터의 양이 크게 증가하더라도 DBMS에서 저장/검색/분석하여 활용하기에 용이함

  • 설문지의 주관식 응답, 트위터 및 sns에 올린 글 등이 속함
  • 비정형 데이터라고 부르기도 함
  • 형태와 형식이 일정하지 않기에 데이터를 분석/저장/검색하는 데에 상대적으로 많은 비용과 기술적 투자가 들어 감

  5) 형식지(explicit knowledge)와 암묵지(tacit knowledge)

암묵지 형식지
1) 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로는 드러나지 않는 지식
2) 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식
- 과학적 발견은 개인적인 암묵적 지식에 기초하기에 사회적으로 중요
- 단점: 외부에 표출되어 다른 사람에게 공유되기 어려움
3) Keyword:
공통화 (Socialization) & 내면화 (Internalization)
1) 교과서, 매뉴얼 등 형상화된 지식을 의미
2) 유형의 대상이 있기 때문에 지식의 전달과 공유가 용이
3) Keyword:
- 표출화 (Externalization) & 연결화 (Combination)
※개인의 암묵지 (개인적인 경험)이 객관적인 문서나 매체에 가공되는 과정이기 때문에, 데이터는 지식 형성의 중요한 기초를 이룸

2. 데이터와 정보의 관계

- DIKW 피라미드

단계 설명
지혜
(Wisdom)
• 근본 원리에 깊은 이해를 바탕으로 도출되는 창의적 아이디어
지식
(Knowledge)
• 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
• 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화
정보
(Information)
• 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
• 단, 정보가 내포하는 의미가 반드시 유용하지는 않을 수 있음
데이터
(Data)
• 존재 형식을 불문하고 타 데이터와의 상관관계가 없는 가공 전의 순수한 수치나 기호를 의미
• 개별 데이터 자체로는 의미가 중요하지 않는 객관적 사실

제 2 절 데이터베이스 정의와 특징


1. 용어의 연역

 1) 데이터 베이스의 용어
 • 1950년대에 미국 정부가 전 세계에 산재한 자국 군대의 군비 상황을 집중 관리하기 위하여 컴퓨터 기술로 구현된 도서관을 설립하면서 시작됨.
 • 데이터의 (data) + 기지 (base) : data base
 • 공식적으로 해당 용어가 사용된 것은 1963년 미국 SDC가 개최한 “컴퓨터 중심의 데이터 베이스 개발과 관리”라는 주제의 심포지엄. (해당 심포지엄까지는 단순히 데이터베이스가 대량의 데이터를 축적하는 곳의 의미에 머뭄)
 • 1965년 2차 심포지엄에서 시스템을 통한 체계적 관리와 저장 등의 의미를 담은 데이터베이스라는 용어가 등장

2. 데이터베이스의 정의 

정의한 곳 정의
EU의 데이터베이스의
법적 보호에 관한
지침 
- 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
국내의 저작권법 - 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 소재를 검색할 수 있도록 한 것 
- 법률적으로 데이터베이스는 기술을 기반으로 한 일종의 저작물로 인정됨
컴퓨터 용어사전 - 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라 편성된 데이터의 집합 
- 관련된 레코드의 집합, 소프트웨어로는 DBMS를 의미
데이터 분석 전문가의
책 내에서의 정의
- 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 컨텐츠를 정보 처리 및 정보 통신기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

 ※ Database와 DBMS (데이터 관리 시스템)의 차이점
  • 데이터베이스: 체계적으로 정렬된 데이터 집합을 의미
  • DBMS: 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어
  • DBMS + Database à Database system

3. 데이터 베이스의 특징

1) 데이터 베이스의 특징

특징 설명
통합된 데이터
(integrated data)
- 데이터베이스에서 동일한 내용의 데이터가 중복되어 들어가 있지 않음
저장된 데이터
(Stored data)
- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것
공용 데이터
(Shared Data)
- 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용함
변화하는 데이터 - 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 언제나 현재의 정확한 데이터를 유지함

2) 데이터 베이스의 다양한 측면

측면 설명
정보의 축적

전달 측면
• 기계 가독성: 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음
• 검색 가능성: 다양한 방법으로 필요한 정보를 검색할 수 있음 
정보 이용 측면 • 원격 조작성: 정보통신망을 이용하여 원거리에서도 즉시 온라인으로 이용할 수 있음
정보 관리 측면 • 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아 낼 수 있는 특징
정보 기술 측면 • 데이터 베이스는 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술의 발전을 견인할 수 있음
경제/산업적 측면 • 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라로서 특징을 가지고 있음
• 경제/산업/사회 활동의 효율성을 제고하고 국민의 편의를 증진시키는 수단으로서 의미

제 3 절 데이터 베이스의 활용


1. 기업 내부의 데이터 베이스

1) 1990년대의 데이터베이스:
 • 기업 경영과 관련된 모든 자료를 연계하여 일관된 체계로 구축, 운영하도록 하는 경영활동의 기반이 되는 전산 시스템으로 확대
 • 1990년대 중반: 데이터 마이닝 등의 기술이 등장함에 따라 단순한 정보의 수집에서 분석이 중심이 되는 시스템 구축으로 변화  
   - OLTP (Online Transaction Processing): 단순한 정보의 수집과 이를 조직 내에서 공유하기 위한 경영 정보 시스템  
   - OLAP (Online Analytical Processing) : 데이터 마이닝 등의 기술로 정보들의 분석이 중심이 되는 시스템  
                                                                  ( 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어) 
 ※ BI (Business Intelligence): 경영 의사 결정을 위한 통계적이고 수학적인 분석에 초점을 맞춘 기법

2) 2000년대의 데이터 베이스
• CRM (고객관계관리) vs SCM(공급망관리)
• CRM
  - 고객별 구매이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것
• SCM
  - 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화하는 것
  - 자재구매데이터, 생산/제고 데이터, 유통/판매 데이터, 고객 데이터로 구성

3) 예시 

부분 설명
제조부분 - 데이터 베이스 기술의 가장 중요한 적용분야
- 초기에는 기업별 고유 시스템형태로 구축되었지만 이후에는 솔루션 유형으로 발전
ex 1) 클라이언트/서버 기반의 내부 정보시스템을 웹환경으로 전환
ex 2) ERP (Enterprise Resource Planning) 이후에는 SCM으로 기능을 확장 (기업 내부 DB 구축)
- 실시간 기업 (RTE)
기업의 비즈니스 프로세스를 투명하고 민첩하게 유지하여 환경 변화에 따른 적응 속도를 최대화하여 지연 시간을 없애는 정보화 전략
- 제조 부분의 ERP 시스템 도입과 함께 DW, CRM, BI 등의 진보된 정보기술을 적용한 기업 내부 DB 구축
금융부분 - 업무 프로세스 효율화, e비지니스 활성화, 금융권 통합 시스템 구축 등이 확산
- EAI, ERP, e-CRM 등과 같이 데이터베이스 간의 정보 공유 및 통합이나 고객 정보의 전략적 활용이 주된 테마
- DW를 적극적으로 도입하여 DB를 증대시키기 위한 노력
유통부분
- 전반적인 IT 환경 변화에 맞물려 CRM과 SCM 구축이 이루어짐
- 상거래를 위한 인프라 및 KMS (Knowledge Management System)를 위한 별도의 백업 시스템 구축

2. 사회기반구조로서의 데이터베이스

부분 설명
물류부분 - 종합물류정보방 구축
지리부분 - NGIS (국가지리정보체계) 구축
교통부분 - 실시간 교통정보와 비실시간 교통정보로 구성
  1)
실시간 교통정보: 지능형교통시스템(ITS)나 방송매체등에서 교통 소통을 목적으로 운전자에게 제공되는 교통 정보
  2)
비실시간 교통정보: 교통 정책 및 계획 수립 등에 필요한 교통 분야별 기초 자료 및 통계를 제공하는 데이터 베이스
의료부분 의료정보시스템
-
크게 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템(PACS), 병원의 멀티미디어, 원격 의료, 지식 정보화로 이루어짐  
교육부분 - 대학도서관 소장 자료의 DB 구축이 추진
-
모바일 캠퍼스 구축 등 ERP에 대한 투자 확대
-
학생을 중심으로 한 CRM 등이 본격적을 도입
-
전국교육정보공유체제: /도 교육청, 산하기관, 각급 학교가 보유하고 있는 각종 교육자료를 표준화/체계화한 교육 정보의 공동활용체제
-
교육행정정보시스템(NEIS): 학교별 DB와 각 교욱기관을 인터넷으로 연결해 교육과 관련된 전 업무를 처리하는 시스템
728x90

댓글