ADsP 1과목 데이터 이해
1-1-1
1) 데이터의 유형
(1) 정성적 데이터: 언어, 문자 등
(2) 정량적 데이터: 수치, 도형, 기호 등
2) 지식 경영의 핵심 이슈 (공표연내)
(1) 암묵지: 학습과 경험을 통해 개인에게 체화되어 있지만, 겉으로 드러나지 않는 지식, 공유되기 어려움. / 공통화, 내면화
(2) 형식지: 문서나 매뉴얼처럼 형상화된 지식, 전달과 공유가 용이함 / 표출화, 연결화
공통화->표현화->연결화->내면화
(3) 데이터와 정보의 관계 DIKW
(1) 데이터: 개별 데이터 자체로는 의미가 없는 객관적 사실 (가공 전)
(2) 정보: 데이터의 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것
(3) 지식: 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것
(4) 지혜: 지식이 축적과 아이디어가 결합된 창의적인 산물
1-1-2
1) 데이터베이스의 특징 (공통저변)
(1) 공용 데이터: 여러 사용자가 다른 목적으로 공동으로 이용
(2) 통합 데이터: 데이터 중복X
(3) 저장 데이터: 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
(4) 변화되는 데이터: 항상 변화하면서도 항상 현재의 정확한 데이터를 유지
1-1-3
1) 기업내부 데이터베이스
(1) OLTP(On-Line Transaction Processing): 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 엑세스하고, 바로 처리 결과를 돌려보내는 형태. 데이터 갱신 위주
(2) OLAP(On-Line Analytical Processing): 정보 위주의 분석 처리를 의미. 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술. 데이터 조회 위주. 대화식으로 분석. 통계적.
(3) CRM: 고객 특성에 맞게 마케팅 활동을 계획, 지언 및 평가하는 과정
(4) SCM: 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것.
2) 제조부문
(1) 데이터 웨어하우스(전사적 차원): 기업 내의 의사결정 지원, 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간
(2) ETL(Extract, Transform, Load): 추출, 변환, 적재 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 적재함. 데이터들은 시간적 흐름에 따라 변화하는 값을 유지.
(3) ERP: 경영자원을 하나의 통합 시스템으로 재구축함
(4) BI: 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스 (하나의 특정 비즈니스 질문에 답변하도록 설계)
3) 데이터 웨어하우스의 4대 특성
(1) 데이터의 통합: 데이터들은 전시적 차원에서 일관된 형식으로 정의됨
(2) 데이터의 시계열성: 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장.
(3) 데이터 주제 지향적, 비소멸성(비휘발성): 특정 주제에 따라 데이터들이 분류, 저장, 관리됨.
데이터 마트: 소규모 단일 주제의 데이터 웨어하우스. 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점.
블록체인: 거래에 참여하는 모든 사용자에게 거래 내용을 보여주며 거래 때마다 이를 대조하는 데이터 위조 방지 기술.
1-2-1
1) 빅데이터의 이해
(1) 3V: Volume(양), Variety(다양성), Velocity(속도) <--- 투자 비용 요소
+Value(가치)(비즈니스 효과 요소) ---> 4V
2) 출현 배경과 변화
(1) 출현 배경: 기존의 데이터, 처리 방식, 다루는 사람과 조직 차원에서 일어나는 ‘변화’를 말한다. 비정형 데이터 확산
(2) 3가지 출현 배경
: 양질전환 법칙(일정한 양 누적 -> 질적인 비약)
클라우드 컴퓨팅(빅 데이터 분석에 경제적 효과를 제공해 준 기술. 데이터 처리 비용 감소)
IoT(Internet of Thing): 사람 또는 기계끼리 통신하는 기술, 다른 사물들과 데이터를 공유할 수 있는 수많은 ‘사물’, 내장 센서를 이용해 데이터 수집, 경우에 따라 그에 맞게 반응
미래의 빅데이터 관점에서 볼 때 사물인터넷(IoT)과 가장 관련 큰 것: 모든 사물의 데이터화
3) 빅데이터의 기능
(1) 사전처리 -> 사후처리
(2) 표본조사 -> 전수조사
(3) 질 -> 양 (양질전환 법칙)
(4) 인과관계 -> 상관관계
1-2-2
정부의 이익을 위해 개인의 정보를 활용하지 않음.
사물인터넷(IoT)의 발달로 인해 사람의 개입 최소화
1-2-3
1) 빅데이터를 활용한 기본 테크닉
(1) 연관규칙학습: 상관관계 찾기
(2) 유형분석: 특성에 따라 분류할 때
(3) 유전자 알고리즘: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이
(4) 기계학습: 훈련 데이터
(5) 회귀분석: 두 변인의 관계
(6) 감정분석
(7) 소셜네트워크분석(=사회관계망분석)
1-2-5
1) 기본 3요소
(1) 데이터: 모든 것의 데이터화
(2) 기술: 진화하는 알고리즘, 인공지능
(3) 인력: 데이터 사이언티스트, 알고리즈미스트
2) 미래 사회의 특성과 빅데이터 활용
(1) 융합-창조력
(2) 리스크-대응력
(3) 불확실성-통찰력
(4) 스마트-경쟁력
1-3-2
1)
(1) 정형 데이터: 행과 열에 의해 데이터의 속성이 구별되는 스프레드 시트 형태 (표)
(2) 반정형 데이터: 데이터 구조에 대한 메타 정보를 포함한 데이터, parsing을 통해 구조 파악, 정보 활용 가능
(3) 비정형 데이터: 형태나 구조가 정형화되지 않은 데이터, 잠재적 가치 상승 / email, sns ..
(4) 분석 대상: 정형, 비정형, 반정형 등 다양한 데이터 유형
(5) 분석 방법: 분석+시각화+전달을 포함한 개념
(6) 학문 접근: 종합적 학문 또는 총체적 접근법
2)데이터 사이언스의 구성요소
(1) 가트너가 본 데이터사이언티스트의 역량: 데이터 관리, 분석모델링, 비즈니스 분석, 소프트 스킬
(2) 하드 스킬: 머신 러닝, 모델링, 데이터 기술 능력, 빅데이터에 대한 이론 지식, 분석 기술에 대한 숙련
(3) 소프트 스킬: 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력
3) 의사 결정 오류
(1) 로직(논리) 오류: 부정확한 가정을 하고 테스트x
(2) 프로세스 오류: 결정에서 분석과 통찰력 고려x, 데이터 수집이나 분석이 늦어 사용 못 하게 되는 것, 대안을 진지하게 고려x
1-3-3
(1) 과거
-정보: 무슨 일이 일어났는가? (리포팅/보고서)
-통찰력: 어떻게 왜 일어났는가? (모델링, 실험 설계)
(2) 현재
-정보: 무슨 일이 일어나고 있는가? (경고)
-통찰력: 차선 행동은 무엇인가? (권고)
(3) 미래
-정보: 무슨 일이 일어날 것인가? (추출)
-통찰력: 최악, 최선의 상황은? (예측, 최적화)
최신 빅데이터 상식
(1) DBMS: 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어
(2) RDBMS: 정형화된 테이블로 구성된 데이터 항목들의 집합체. MySQL, Oracle Database
(3) ODBMS: 상속. 복잡한 데이터 구조를 표현 및 관리
(4) 데이터베이스의 설계 절차 (요개논물) : 요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계 -> 구현
(5) NoSQL: 비관계형 데이터베이스 관리시스템, 디자인 단순화, 세세한 통제, 수평적 확장성
(6) SQL: 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어.
(7) SQL 집계함수
-AVG
-COUNT
-SUM
-STDDEV: 분산
-MIN
-MAX
(8) 비식별 기술의 종류와 예
-데이터 마스킹
-가명처리
-총계처리
-데이터 값 삭제
-데이터 범주화