카테고리 없음

AdsP 내용정리

원이블 2023. 4. 27. 16:05

ADsP 1과목 데이터 이해



1-1-1

1) 데이터의 유형

(1) 정성적 데이터: 언어, 문자 등

(2) 정량적 데이터: 수치, 도형, 기호 등

2) 지식 경영의 핵심 이슈 (공표연내)

(1) 암묵지: 학습과 경험을 통해 개인에게 체화되어 있지만, 겉으로 드러나지 않는 지식, 공유되기 어려움. / 공통화, 내면화

(2) 형식지: 문서나 매뉴얼처럼 형상화된 지식, 전달과 공유가 용이함 / 표출화, 연결화

공통화->표현화->연결화->내면화

(3) 데이터와 정보의 관계 DIKW

(1) 데이터: 개별 데이터 자체로는 의미가 없는 객관적 사실 (가공 전)

(2) 정보: 데이터의 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것

(3) 지식: 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것

(4) 지혜: 지식이 축적과 아이디어가 결합된 창의적인 산물

1-1-2

1) 데이터베이스의 특징 (공통저변)

(1) 공용 데이터: 여러 사용자가 다른 목적으로 공동으로 이용

(2) 통합 데이터: 데이터 중복X

(3) 저장 데이터: 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미

(4) 변화되는 데이터: 항상 변화하면서도 항상 현재의 정확한 데이터를 유지

1-1-3

1) 기업내부 데이터베이스

(1) OLTP(On-Line Transaction Processing): 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 엑세스하고, 바로 처리 결과를 돌려보내는 형태. 데이터 갱신 위주

(2) OLAP(On-Line Analytical Processing): 정보 위주의 분석 처리를 의미. 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술. 데이터 조회 위주. 대화식으로 분석. 통계적.

(3) CRM: 고객 특성에 맞게 마케팅 활동을 계획, 지언 및 평가하는 과정

(4) SCM: 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것.

2) 제조부문

(1) 데이터 웨어하우스(전사적 차원): 기업 내의 의사결정 지원, 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간

(2) ETL(Extract, Transform, Load): 추출, 변환, 적재 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 적재함. 데이터들은 시간적 흐름에 따라 변화하는 값을 유지.

(3) ERP: 경영자원을 하나의 통합 시스템으로 재구축함

(4) BI: 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스 (하나의 특정 비즈니스 질문에 답변하도록 설계)

3) 데이터 웨어하우스의 4대 특성

(1) 데이터의 통합: 데이터들은 전시적 차원에서 일관된 형식으로 정의됨

(2) 데이터의 시계열성: 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장.

(3) 데이터 주제 지향적, 비소멸성(비휘발성): 특정 주제에 따라 데이터들이 분류, 저장, 관리됨.

데이터 마트: 소규모 단일 주제의 데이터 웨어하우스. 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점.

블록체인: 거래에 참여하는 모든 사용자에게 거래 내용을 보여주며 거래 때마다 이를 대조하는 데이터 위조 방지 기술.

1-2-1

1) 빅데이터의 이해

(1) 3V: Volume(양), Variety(다양성), Velocity(속도) <--- 투자 비용 요소

+Value(가치)(비즈니스 효과 요소) ---> 4V

2) 출현 배경과 변화

(1) 출현 배경: 기존의 데이터, 처리 방식, 다루는 사람과 조직 차원에서 일어나는 ‘변화’를 말한다. 비정형 데이터 확산

(2) 3가지 출현 배경

: 양질전환 법칙(일정한 양 누적 -> 질적인 비약)

클라우드 컴퓨팅(빅 데이터 분석에 경제적 효과를 제공해 준 기술. 데이터 처리 비용 감소)

IoT(Internet of Thing): 사람 또는 기계끼리 통신하는 기술, 다른 사물들과 데이터를 공유할 수 있는 수많은 ‘사물’, 내장 센서를 이용해 데이터 수집, 경우에 따라 그에 맞게 반응

미래의 빅데이터 관점에서 볼 때 사물인터넷(IoT)과 가장 관련 큰 것: 모든 사물의 데이터화

3) 빅데이터의 기능

(1) 사전처리 -> 사후처리

(2) 표본조사 -> 전수조사

(3) 질 -> 양 (양질전환 법칙)

(4) 인과관계 -> 상관관계

1-2-2

정부의 이익을 위해 개인의 정보를 활용하지 않음.

사물인터넷(IoT)의 발달로 인해 사람의 개입 최소화

1-2-3

1) 빅데이터를 활용한 기본 테크닉

(1) 연관규칙학습: 상관관계 찾기

(2) 유형분석: 특성에 따라 분류할 때

(3) 유전자 알고리즘: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이

(4) 기계학습: 훈련 데이터

(5) 회귀분석: 두 변인의 관계

(6) 감정분석

(7) 소셜네트워크분석(=사회관계망분석)

1-2-5

1) 기본 3요소

(1) 데이터: 모든 것의 데이터화

(2) 기술: 진화하는 알고리즘, 인공지능

(3) 인력: 데이터 사이언티스트, 알고리즈미스트

2) 미래 사회의 특성과 빅데이터 활용

(1) 융합-창조력

(2) 리스크-대응력

(3) 불확실성-통찰력

(4) 스마트-경쟁력

1-3-2

1)

(1) 정형 데이터: 행과 열에 의해 데이터의 속성이 구별되는 스프레드 시트 형태 (표)

(2) 반정형 데이터: 데이터 구조에 대한 메타 정보를 포함한 데이터, parsing을 통해 구조 파악, 정보 활용 가능

(3) 비정형 데이터: 형태나 구조가 정형화되지 않은 데이터, 잠재적 가치 상승 / email, sns ..

(4) 분석 대상: 정형, 비정형, 반정형 등 다양한 데이터 유형

(5) 분석 방법: 분석+시각화+전달을 포함한 개념

(6) 학문 접근: 종합적 학문 또는 총체적 접근법

2)데이터 사이언스의 구성요소

(1) 가트너가 본 데이터사이언티스트의 역량: 데이터 관리, 분석모델링, 비즈니스 분석, 소프트 스킬

(2) 하드 스킬: 머신 러닝, 모델링, 데이터 기술 능력, 빅데이터에 대한 이론 지식, 분석 기술에 대한 숙련

(3) 소프트 스킬: 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력

3) 의사 결정 오류

(1) 로직(논리) 오류: 부정확한 가정을 하고 테스트x

(2) 프로세스 오류: 결정에서 분석과 통찰력 고려x, 데이터 수집이나 분석이 늦어 사용 못 하게 되는 것, 대안을 진지하게 고려x

1-3-3

(1) 과거

-정보: 무슨 일이 일어났는가? (리포팅/보고서)

-통찰력: 어떻게 왜 일어났는가? (모델링, 실험 설계)

(2) 현재

-정보: 무슨 일이 일어나고 있는가? (경고)

-통찰력: 차선 행동은 무엇인가? (권고)

(3) 미래

-정보: 무슨 일이 일어날 것인가? (추출)

-통찰력: 최악, 최선의 상황은? (예측, 최적화)







최신 빅데이터 상식

(1) DBMS: 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어

(2) RDBMS: 정형화된 테이블로 구성된 데이터 항목들의 집합체. MySQL, Oracle Database

(3) ODBMS: 상속. 복잡한 데이터 구조를 표현 및 관리

(4) 데이터베이스의 설계 절차 (요개논물) : 요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계 -> 구현

(5) NoSQL: 비관계형 데이터베이스 관리시스템, 디자인 단순화, 세세한 통제, 수평적 확장성

(6) SQL: 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어.

(7) SQL 집계함수

-AVG

-COUNT

-SUM

-STDDEV: 분산

-MIN

-MAX

(8) 비식별 기술의 종류와 예

-데이터 마스킹

-가명처리

-총계처리

-데이터 값 삭제

-데이터 범주화