본문 바로가기
ADsP

ADsP 1과목 데이터 이해 정리

by ADELA_J 2023. 8. 17.

<OLTP vs OLAP>

- OLTP(On-Line Transcation Processing) : 네트워크상의 여러 이용자가 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 등의 단위작업을 처리하는 방식 ex)은행에서 입출금 등이 일어날때

- OLAP (On-Line Analytic Processing) : 정보 위주의 처리분석을 의미한다. 의사결정에 활용할 수 있는 정보를 얻을 수 있께 해주는 기술 ex) 판매추이, 구매성향 파악, 재무회계 분석 등을 프로세싱하는것

 

<CRM 와 SCM>

- CRM : 선별된 고객으로부터 수익을 창출하고 장기적인 고객 관계를 가능케 함으로써 보다 높은 이익을 창출할 수 있는 솔루션

- SCM : 제조, 물류, 유통업체 등 유통 공급망에 참여하는 모든 업체가 협력을 바탕으로 정보기술을 활용, 재고를 최적화하기 위한 솔루션

> SCM과 CRM은 연동되기 때문에 상호 밀접한 관계 오늘날 CRM은 기존의 목적은 변화되지 않고 방법론에서만 변화하고 있음.

 

<RTE: Real-Time Enterprise , 실시간 기업>

- 가트너는 RTE를 '최신 정보를 사용해 자사의 핵심 비즈니스 프로세스들의 관리와 실행과정에서 생기는 지연 사태를 지속해서 제거함으로써 경쟁하는 기업'으로 정의

 

<ERP와 BI>

- ERP : 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 솔루션

- BI (Business Intelligence) : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구 

- BA (Business Analytics) : 소프트웨어로 데이터를 분석해 미래를 예측하거나(예측 분석), 특정 접근법을 적용했을 때 발생할 수 있는 일을 내다보는 (처방적 분석) 기술의 도움을 받는 과정이다. 그래서 BA는 고급분석(advanced analytics)라고 불리기도 한다. 의사결정을 위한 통계적이고 수학적인 분석에 초점

 

<정형 데이터 vs 반정형데이터 vs 비정형 데이터>

정형 데이터
Structured Data
반정형 데이터
Semi-Structured Data
비정형 데이터
Unstructured - Data
- 관계형 DBS의 테이블과 같이 고정된 컬럼에 저장되는 데이터와 파일, 행,열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터도 있을 수 있다.

- 데이터의 스키마를 지원함
 > 스키마 구조를 가지고 있어 데이터를 탐색하는 과정이 테이블 탐색, 컬럼구조 탐색, 로우 탐색 순으로 정형화 되어 있음.

ex) RDBMS의 테이블들, 스프레드 시트
- 데이터 내부에 정형 데이터의 스키마에 해당되는 메타데이터를 가지고 있으며, 일반적으로 파일 형태로 저장된다. 
- 데이터 구조에 대한 메타정보를 갖고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는것이 중요.
- 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용한다. 

ex)URL형태, HTML, 오픈API, XML, JSON, IOT에서 제공하는 센서데이터
- 하나의 데이터가 수집 데이터로 객화되어있음
- 언어 분석이 가능한 텍스트, 이미지, 동영상 같은 멀티미디어 데이터
- html같은 형태로 존재해 반정형 데이터로 구분할 수도 있지만 수집할수도 있어서 명확한 구분 어려움

ex) 동영상, 이미지, 소셜 데이터의 텍스트

 

<데이터웨어하우스>

- 기존의 운용 데이터베이스에 비교하여 의사결정을 지원할 수 있는 분석 정보를 제공함.

- 특징:

  1. 데이터의 주제 지향성 : 의사결정에 필요한 주제와 관련된 데이터만 유지하는 주제지향적인 특징

  2. 데이터의 통합성 : 데이터가 항상 일괄된 상태를 유지하도록 DB에서 추출한 데이터를 통합하여 저장하는 특징

  3. 시계열성 : 데이터간의 시간적 관계나 동향을 분석해 의사결정에 반영할 수 있도록. 시간에 따른 변경을 항상 반영하고 있어야함

  4. 비휘발성 : DB는 삽입삭제수정작업이 자주일어나지만 데이터웨어하우스는 읽기 전용의 데이터만 유지한다.

 데이터 레이크(Data Lake) : 대용량의 정형 및 비정형 데이터를 저장/접근하는 대규모 저장소.

 

<데이터 정의 - 존재론vs당위적>- 존재론 : 객관적 사실 fact. 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 - 당위적 : 추론, 예측,전망,추정을 위한 근거(basis)로 기능하는 당위적 특성. 다른 객체와의 상호 관계 속에서 가치를 갖음

 

<데이터의 정의 - 정성적(qualitative) vs 정량적(quantitative) >- 정성적 : 언어, 문자 등, 자료의 성질과 특징을 자세히 풀어쓰는 방식. ex. 만족도 선호도, 요약, 주관적 결론 등- 정량적 : 수치, 도형, 기호 등 자료를 수치화 하는 것. 정형 데이터, 통계분석, 객관적 결론 등

 

<암묵지 vs 형식지>- 암묵지 : 경험을 통해 획득할 수 있는 지식. 겉으로는 드러나지 않는 상태의 지식- 형식지 : 체계화된 자료 등을 통해서 획득할 수 있는 지식. 문서처럼 외부로 표출되어서 여러 사람이 공유가능<암묵지와 형식지의 상호작용>- 공통화(Socialization) : 암묵지 지식 노하우를 다른 사람에게 알려줌- 표출화(Externalization) : 암묵지 지식 노하우를 책, 교본 형식으로 전환함- 연결화(Combination) : 책, 교본에 자신이 알고 있는 새로운 지식을 추가함- 내면화(Internalization) : 만들어진 책, 교본을 보고 다른 직원의 암묵적 지식을 습득함

>> 이걸 나선형 형태로 회전하면서 생성,발전,전환되는 지식의 발전을 기반으로 한 기업의 경영을 지식경영이라 함.

 

<데이터와 정보의 관계 - DIKW 피라미드>

- data  : 객관적인 사실. 가공하기 전의 순수한 수치나 기호

- Information : 패턴을 인식하고 의미를 부여

- Knowledge : 상호연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

- Wisdom : 이해를 바탕으로 도출되는 아이디어

 

<데이터 사이언티스트의 역량>

- Hard Skill : 빅데이터에 대한 이론적 지식(관련 기법에 대한 이해와 방법론 습득), 분석 기술에 대한 숙련(최적의 분석 설계 및 노하우 축적)

- Soft Skill : 통찰력있는 분석(창의적 사고,호기심, 논리적 비판), 설득력 있는 전달(스토리텔링, Visualization), 다분야 간 협력(커뮤니케이션)

 

<빅데이터 분석과 전략 인사이트>

- 빅데이터의 과제의 주요 걸림돌은 비용이 아닌 분석적 방법에 대한 이해부족이다.

- 분석을 다방면에 많이 사용하는 것이 경쟁 우위를 가져다 주는 첫 번째 요소는 절대 아니고

 단순히 분석을 많이 하는 것이 곧바로 경쟁우위를 가져다 주지 않는다.

- 전략적 인사이트 주는 분석을 통해 복잡한 사업 모델을 단순화하는 것이 적합한 전략이다.

- 빅데이터 분석에서 가치 창출은 데이터의 크기에 의해 좌우된다. 

  데이터의 크기가 이슈가 아니라 비즈니스 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요하다.

- 성과가 우수한 기업들도 가치 분석적 통찰력을 가지고 있다고 대답한 비율이  매우 낮다는 사실이고, 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다주는 데이터 분석을 내재화하는 것은 쉬운일이아니다.

 

<빅데이터의 가치산정이 어려운 이유>

- 데이터의 활용 방식

 > 데이터의 재사용, 재조합 등이 일반화되면서 특정 데이터를 언제 누가 어디서 사용했는지 알 수 없다. 

 > 재사용 사례 : 검색결과를 저장 후 재사용한다.

 > 다목적용사례:전기자동차의 배터리 충전시간, 주유소최적위치 등 , CCTV 절도범 구매정보 등

 > 재조합 사례 : 휴대전화 전자파와 뇌종양 관계

- 데이터가 기존에 없던 가치 창출을 한다.

- 분석 기술의 발달이 데이터 가치에 영향을 준다.

 

<데이터 처리 프로세스 ETL, Extraction, Transformation, Load>

- 데이터 이동과 변환 절차와 관련된 업계표준용어이다.

- 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소이다. 

- 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)에 걸쳐 폭넓게 활용된다.

- 데이터 이동과 변환을 주목적으로 하며 3가지 기능으로 구성된다.

 > Extraction(추출) : 데이터 원천 들로부터 데이터 획득

 > Transformation(변형) : 데이터 클렌징, 형식변환,표준화,통합 또는 비즈니스 룰 적용 등

 > Loading(적재) : 변형 처리가 완료된 데이터를 목표 시스템에 적재

 

<빅데이터 활용 테크닉>

- 연관규칙학습 : 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?' 라는 문제에 답하고자 할때. 상관관계 찾아내는 것.

- 유형분석 : 사용자가 어떤 특성을 가진 집단에 속하는가? 와 같은 문제에 답하고자 할때. 그룹을 나눌때 사용할 수 있음.

- 유전알고리즘 : 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하는가?에 대한 답을 얻고자할때 최적화의 메커니즘을 찾아가는 방법.

- 기계학습(머신러닝):시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까?와 같은 문제. 예측하는 일에 초점

- 회귀분석 : 구매자의 나이가 구매 차량의 어떤 영향을 미치는가? 독립변수에 따른 종속변수가 어떻게 변화하는지를 보면 두 변수의 관계를 파악한다.

- 감정분석 : 새로운 환불 정책에 대한 고객의 평가는 어떤가?를 알고 싶을때. 의견을 바탕으로 고객의 원하는 것을 찾아낼때

- 소셜네트워크분석 : 사회관계망분석. 특정인과 다른 사람이 몇촌 정도의 관계인가? 파악할때. 오피니언리더를 찾아낼 수 있음

 

<빅데이터의 위기요인과 통제방안>

- 사생활 침해: 동의제를 책임제로 바꾸는 방안이 대안

- 책임 원칙의 훼손 : 기존 책임 원칙을 좀 더 보강. 

- 데이터 오용 : 알고리즘 접근권에 대한 보장. 객관적인 인증방안 도입. 알고리즈미스트

 

<빅데이터가 만들어 내는 본질적인 변화>

- 사전 처리 > 사후처리

- 표본조사 > 전수조사

- 질 > 양

- 인과관계 > 상관관계

 

<데이터 3법 주요 개정 내용>

- 개인정보보호법 / 정보통신망법 / 신용정보법 등 3가지 법률 통칭

- 마이데이터 산업 : 금융분야 마이데이터 사업을 하려면 금융 위원회로부터 허가를 얻은 후 개인의 동의 하에 타 기업에 저장된 개인정보 활용 가능. 금융권에서 많이 쓰는중

 

<데이터 비식별화>

- 가명처리 : 홍길동 35세 > 임꺽정 30대

- 총계처리 또는 평균값 대체 : 물리학과 학생 키 600cm / 평균 155cm

- 데이터값(가치)삭제 : 홍길동 35세 서울 거주 한국대 졸업 > 35세 서울거주 

- 범주화 : 홍길동 35세 > 홍씨, 30~40세

- 데이터마스킹 : 홍길동 > 홍 **

 

<빅데이터 기능>

- 산업혁명의 석탄, 철에 비유된다.

- 원유에 비유된다

- 렌즈에 비유된다

- 플랫폼에 비유된다.

 

 

'ADsP' 카테고리의 다른 글

ADsP 3과목 데이터분석 정리 (1)  (0) 2023.08.18
ADsP 2과목 데이터 분석 기획 정리  (0) 2023.08.18
ADsP 31회 기출문제 정리  (0) 2023.08.16
ADsP 34회 기출문제 정리  (0) 2023.08.15
ADsP 32회 기출문제  (0) 2023.08.15