개인적으로 한국데이터산업진흥원에서 출판한 데이터 분석 전문가 가이드를 읽으면서 정리한 내용입니다.
제 1 절 데이터와 정보
1. 데이터의 정의
1) 1946년 영국 문헌에서 데이터라는 용어가 처음 등장한 것으로 알려짐
2) 데이터의 어원: 라틴어인 dare(주다)의 과거분사형으로서 처음 사용된 것으로 알려짐
3) 데이터의 정의
• 옥스포드 대사전: 데이터는 추론과 추정의 근거를 이루는 사실
- 데이터를 단순한 객체로써 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명
- 존재적 특성(객관적 사실) + 당위적 특성(추론/예측/전망/추정을 위한 근거)
4) 데이터의 분류: 정성 데이터 (Qualitative data) + 정량 데이터 (Quantitative data)
정량데이터 |
정성데이터 |
|
정의 |
수치/기호/도형으로 표시되는 데이터 |
언어/문자 등으로 기술되는 데이터 |
특징 |
• 온도/풍량/강우량 같이 수치로 명확히 표현 |
• 설문지의 주관식 응답, 트위터 및 sns에 올린 글 등이 속함 |
5) 형식지(explicit knowledge)와 암묵지(tacit knowledge)
암묵지 | 형식지 |
1) 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로는 드러나지 않는 지식 2) 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식 - 과학적 발견은 개인적인 암묵적 지식에 기초하기에 사회적으로 중요 - 단점: 외부에 표출되어 다른 사람에게 공유되기 어려움 3) Keyword: 공통화 (Socialization) & 내면화 (Internalization) |
1) 교과서, 매뉴얼 등 형상화된 지식을 의미 2) 유형의 대상이 있기 때문에 지식의 전달과 공유가 용이 3) Keyword: - 표출화 (Externalization) & 연결화 (Combination) ※개인의 암묵지 (개인적인 경험)이 객관적인 문서나 매체에 가공되는 과정이기 때문에, 데이터는 지식 형성의 중요한 기초를 이룸 |
2. 데이터와 정보의 관계
- DIKW 피라미드
단계 | 설명 |
지혜 (Wisdom) |
• 근본 원리에 깊은 이해를 바탕으로 도출되는 창의적 아이디어 |
지식 (Knowledge) |
• 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 • 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화 |
정보 (Information) |
• 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 • 단, 정보가 내포하는 의미가 반드시 유용하지는 않을 수 있음 |
데이터 (Data) |
• 존재 형식을 불문하고 타 데이터와의 상관관계가 없는 가공 전의 순수한 수치나 기호를 의미 • 개별 데이터 자체로는 의미가 중요하지 않는 객관적 사실 |
제 2 절 데이터베이스 정의와 특징
1. 용어의 연역
1) 데이터 베이스의 용어
• 1950년대에 미국 정부가 전 세계에 산재한 자국 군대의 군비 상황을 집중 관리하기 위하여 컴퓨터 기술로 구현된 도서관을 설립하면서 시작됨.
• 데이터의 (data) + 기지 (base) : data base
• 공식적으로 해당 용어가 사용된 것은 1963년 미국 SDC가 개최한 “컴퓨터 중심의 데이터 베이스 개발과 관리”라는 주제의 심포지엄. (해당 심포지엄까지는 단순히 데이터베이스가 대량의 데이터를 축적하는 곳의 의미에 머뭄)
• 1965년 2차 심포지엄에서 시스템을 통한 체계적 관리와 저장 등의 의미를 담은 데이터베이스라는 용어가 등장
2. 데이터베이스의 정의
정의한 곳 | 정의 |
EU의 데이터베이스의 법적 보호에 관한 지침 |
- 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물 |
국내의 저작권법 | - 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 소재를 검색할 수 있도록 한 것 - 법률적으로 데이터베이스는 기술을 기반으로 한 일종의 저작물로 인정됨 |
컴퓨터 용어사전 | - 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라 편성된 데이터의 집합 - 관련된 레코드의 집합, 소프트웨어로는 DBMS를 의미 |
데이터 분석 전문가의 책 내에서의 정의 |
- 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 컨텐츠를 정보 처리 및 정보 통신기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체 |
※ Database와 DBMS (데이터 관리 시스템)의 차이점
• 데이터베이스: 체계적으로 정렬된 데이터 집합을 의미
• DBMS: 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어
• DBMS + Database à Database system
3. 데이터 베이스의 특징
1) 데이터 베이스의 특징
특징 | 설명 |
통합된 데이터 (integrated data) |
- 데이터베이스에서 동일한 내용의 데이터가 중복되어 들어가 있지 않음 |
저장된 데이터 (Stored data) |
- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것 |
공용 데이터 (Shared Data) |
- 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용함 |
변화하는 데이터 | - 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 언제나 현재의 정확한 데이터를 유지함 |
2) 데이터 베이스의 다양한 측면
측면 | 설명 |
정보의 축적 및 전달 측면 |
• 기계 가독성: 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음 • 검색 가능성: 다양한 방법으로 필요한 정보를 검색할 수 있음 |
정보 이용 측면 | • 원격 조작성: 정보통신망을 이용하여 원거리에서도 즉시 온라인으로 이용할 수 있음 |
정보 관리 측면 | • 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아 낼 수 있는 특징 |
정보 기술 측면 | • 데이터 베이스는 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술의 발전을 견인할 수 있음 |
경제/산업적 측면 | • 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라로서 특징을 가지고 있음 • 경제/산업/사회 활동의 효율성을 제고하고 국민의 편의를 증진시키는 수단으로서 의미 |
제 3 절 데이터 베이스의 활용
1. 기업 내부의 데이터 베이스
1) 1990년대의 데이터베이스:
• 기업 경영과 관련된 모든 자료를 연계하여 일관된 체계로 구축, 운영하도록 하는 경영활동의 기반이 되는 전산 시스템으로 확대
• 1990년대 중반: 데이터 마이닝 등의 기술이 등장함에 따라 단순한 정보의 수집에서 분석이 중심이 되는 시스템 구축으로 변화
- OLTP (Online Transaction Processing): 단순한 정보의 수집과 이를 조직 내에서 공유하기 위한 경영 정보 시스템
- OLAP (Online Analytical Processing) : 데이터 마이닝 등의 기술로 정보들의 분석이 중심이 되는 시스템
( 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어)
※ BI (Business Intelligence): 경영 의사 결정을 위한 통계적이고 수학적인 분석에 초점을 맞춘 기법
2) 2000년대의 데이터 베이스
• CRM (고객관계관리) vs SCM(공급망관리)
• CRM
- 고객별 구매이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것
• SCM
- 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화하는 것
- 자재구매데이터, 생산/제고 데이터, 유통/판매 데이터, 고객 데이터로 구성
3) 예시
부분 | 설명 |
제조부분 | - 데이터 베이스 기술의 가장 중요한 적용분야 - 초기에는 기업별 고유 시스템형태로 구축되었지만 이후에는 솔루션 유형으로 발전 ex 1) 클라이언트/서버 기반의 내부 정보시스템을 웹환경으로 전환 ex 2) ERP (Enterprise Resource Planning) 이후에는 SCM으로 기능을 확장 (기업 내부 DB 구축) - 실시간 기업 (RTE) 기업의 비즈니스 프로세스를 투명하고 민첩하게 유지하여 환경 변화에 따른 적응 속도를 최대화하여 지연 시간을 없애는 정보화 전략 - 제조 부분의 ERP 시스템 도입과 함께 DW, CRM, BI 등의 진보된 정보기술을 적용한 기업 내부 DB 구축 |
금융부분 | - 업무 프로세스 효율화, e비지니스 활성화, 금융권 통합 시스템 구축 등이 확산 - EAI, ERP, e-CRM 등과 같이 데이터베이스 간의 정보 공유 및 통합이나 고객 정보의 전략적 활용이 주된 테마 - DW를 적극적으로 도입하여 DB를 증대시키기 위한 노력 |
유통부분 |
- 전반적인 IT 환경 변화에 맞물려 CRM과 SCM 구축이 이루어짐 - 상거래를 위한 인프라 및 KMS (Knowledge Management System)를 위한 별도의 백업 시스템 구축 |
2. 사회기반구조로서의 데이터베이스
부분 | 설명 |
물류부분 | - 종합물류정보방 구축 |
지리부분 | - NGIS (국가지리정보체계) 구축 |
교통부분 | - 실시간 교통정보와 비실시간 교통정보로 구성 1) 실시간 교통정보: 지능형교통시스템(ITS)나 방송매체등에서 교통 소통을 목적으로 운전자에게 제공되는 교통 정보 2) 비실시간 교통정보: 교통 정책 및 계획 수립 등에 필요한 교통 분야별 기초 자료 및 통계를 제공하는 데이터 베이스 |
의료부분 | 의료정보시스템 - 크게 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템(PACS), 병원의 멀티미디어, 원격 의료, 지식 정보화로 이루어짐 |
교육부분 | - 대학도서관 소장 자료의 DB 구축이 추진 - 모바일 캠퍼스 구축 등 ERP에 대한 투자 확대 - 학생을 중심으로 한 CRM 등이 본격적을 도입 - 전국교육정보공유체제: 시/도 교육청, 산하기관, 각급 학교가 보유하고 있는 각종 교육자료를 표준화/체계화한 교육 정보의 공동활용체제 - 교육행정정보시스템(NEIS): 학교별 DB와 각 교욱기관을 인터넷으로 연결해 교육과 관련된 전 업무를 처리하는 시스템 |
'취미 > 자격증' 카테고리의 다른 글
[데이터분석 전문가/준전문가] 과목 4 - 1장 - R 기초와 데이터 마트 1 (0) | 2020.11.20 |
---|---|
[데이터분석 전문가/준전문가] 과목 3 - 2 장 - 분석 마스터 플랜 (0) | 2020.11.18 |
[데이터분석 전문가/준전문가] 과목 3 - 1 장 - 데이터 분석 기획의 이해 (0) | 2020.11.18 |
[데이터분석 전문가/준전문가] 과목 1 - 3 장 - 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.11.17 |
[데이터분석 전문가/준전문가] 과목 1 - 2 장 - 데이터의 가치와 미래 (0) | 2020.11.17 |
댓글