<1과목 데이터 이해>
09. 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그의미를 부여한 데이터를 무엇이라 하는가? 정보
<2과목 데이터의 분석 기획>
02. 분석 준비도의 분석 업무 영역이 아닌 것은?
1) 업무별 적합한 분석기법 사용
> 분석 준비도의 '분석기법 영역' 이다.
2) 최적화 분석 업무
3) 발생한 사실 여부 파악
4) 예측 분석업무
- 분석준비도(readiness) : 데이터 분석 도입의 수준을 파악 하기 위한 진단방법
분석 업무파악 | 인력 및 조직 | 분석기법 |
- 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 |
- 분석전문가 직무 존재 - 전문가 교육훈련 프로그램 - 관리자 기본분석능력 - 전사 총괄조직 - 경영진 분석 업무 이해 |
- 업무별 적합한 분석기법 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 |
분석 데이터 | 분석 문화 | IT인프라 |
- 분석업무를 위한 데이터 충분성/신뢰성/적시성 - 비구조정 데이터 관리 - 외부 데이터 활용 체계 - 기준데이터 관리(MDM) |
- 사실에 근거한 의사결정 - 관리자의 데이터 중심 - 회의 등에서 데이터 활용 - 직관보다 데이터 활용 - 데이터 공유 및 협업 문화 |
- 운영시스템 데이터 통합 - EAI, ETL 등 데이터 유통체계 - 분석 전용 서버 및 스토리지 - (빅데이터/ 통계/ 비쥬얼) 분석 환경 |
06. 빅데이터 분석방법론의 시스템 구현 단계의 태스크는 무엇인가?
1) 설계 및 구현, 시스템 테스트 및 운영
2) 필요데이터 정의, 데이터 스토어 설계
3) 탐색적 분석, 모델링
4) 분석용 데이터 준비, 프로젝트 위험계획 수립
1) 분석 기획 | 비즈니스 이해 및 범위 설정 프로젝트 정의 및 계획 수립 프로젝트 위험계획 수립 |
2) 데이터 준비 | 필요 데이터 정의 데이터 스토어 설계 데이터 수집 및 정합성 점검 |
3) 데이터 분석 | 분석용 데이터 준비 텍스트 분석 탐색적 분석 모델링 모델 평가 및 검증 |
4) 시스템 구현 | 설계 및 구현 시스템 테스트 및 운영 |
5) 평가 및 전개 | 모델 발전 계획 수립 프로젝트 평가 및 보고 |
09. 하향식 접근 방식에서 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계를 무엇이라 하는가?
문제정의
> 하향식 접근 방식 프로세스 : 문제탐색, 문제정의, 해결방안탐색, 타당성 검토
<3과목>
15. 회귀분석에 대한 설명 중 적절하지 못한 것은?
1) 특정 변수(독립변수)가 다른 변수(종속 변수)에 어떠한 영향력이 있는지를 파악한다.
2) 성별과 같이 두 집단으로 분류된 명목형 자료는 회귀분석에서 독립변수로 사용변수 할 수 없다.
> 독립변수가 범주형 변수일 때 독립변수를 더미 변수(dummy variable)로 변환하여 회귀분석을 수행한다.
더미변수란 어떤 속성이 존재하면 그 값을 1로, 존재하지 않으면 그 값을 0으로 코딩한 인위적 변수를 의미한다.
3) 잔차와 독립변수의 값이 관련해 있지 않아야 한다.
4) 결정계수는 독립변수가 종속변수를 얼마만큼 설명해주는지를 의미한다.
23. 상관분석에 대한 설명 중 옳은 것은?
1) 스피어만의 상관계수는 비선형관계를 파악하기가 어렵다. 파악이 가능하다.
2) 피어슨의 상관계수는 -무한대에서 +무한대의 범위를 갖는다.
3) 비율척도일때 스피어만의 상관계수를 사용한다.
> 비율척도일 때는 피어슨 상관계수. 스피어만은 서열척도.
4) 피어슨의 상관계수가 0일 때 서로 선형관계가 없다.
24. 정상성에 대한 설명 중 적절하지 않은 것은?
1) 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.
2) 정상성은 시계열의 수준과 분산에 체계적인 변화가 없고, 엄밀하게 주기적 변동이 없음을 의미한다.
3) 분산 값은 시간 t에 관계없이 일정하다.
4) 지수평활법은 최근 시계열에 평균을 구해 미래를 예측하는 방법이다.
> 지수 평활법은 전체 시계열 자료를 이용하여 평균을 구하고 최근 시계열 자료에 더 큰 가중치를 부여하는 방법.
- 다시한번 짚고 넘어가는 시계열의 정상성
> 일반적으로 분산이 시점에 의존하지 않음.
평균이 일정 + 분산도 일정 + 공분산도 특정시점이 아닌 시차에만 의존
25. 원자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하며, 각 노드마다 모든 예측 변수 안에서 최적의 분할(Split)을 선택하는 방법 대신 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어가는 앙상블 기법을 무엇이라 하는가? 랜덤포레스트
26. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 부트스트랩 표본을 구성하는 과정에서 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출하는 방법은 무엇인가? 부스팅
> 배깅(bagging) : 데이터에서 여러 개의 붓스트랩 데이터를 생성해서 각 붓스트랩 데이터 분석 모델에 결합한 후에 최종 예측 모델을 산출하는 것.
데이터 간의 거리를 측정하여 군집화함.
원 데이터 집합으로부터 크기가 같은 표본을 여러 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법.
고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다.
>부스팅(Booting) : 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법. 분류가 잘못된 데이터에 더 큰 가중을 두어 표본 추출
> 랜덤포레스트(random forest) : 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 데이터 집합에 대해 모형을 생성한 후 결합하는 방식. 트리를 형성해 가는 과정은 배깅과 유사하고 예측변수들을을 임의로 추출하며 최적의 분할을 만들어가는 앙상블 기법
27. 군집분석 결과 평가하는 지표로써 각 데이터별로 그 데이터가 속한 군 내의유사도와 인접한 군의 유사도를 비교하는 지표를 무엇이라 하는가. 실루엣계수(지수)
> (쉽게) : 군집의 품질을 정량적으로 계산해주는 방법. 다른 군집과 비교할 때 얼마나 비슷한지.
군집의 밀도정도를 계산하는 방법으로 군집 내의 거리와 군집 간의 거리를 기준으로 군집 분할의 성과를 평가하는 것
28. 인공신경망 모형에서 훈련 데이터를 이용해 가중치와 바이어스를 변화시키는 과정을 반복적으로 수행하여 손실함수가 최솟값이 되도록 하는 알고리즘은? 역전파알고리즘
> 신경망 모형을 목적함수를 최적화하기 위해.
- 연결강도를 갱신하기 위해 예측된 결과와 실제값의 차이인 error를 통해 가중치를 조정하는 방법.
29. 모집단에서 표본을 추출하여 모집단의 모수를 추측하는 과정에서 범위가 아니라 가장 참값이라고 여겨지는 하나의 모수를 택하는 것은? 점 추정
30. 의사결정나무 CART에서 사용하는 불순도 측도이며, 값이 클 수록 이질적이며 순수도가 낮다고 볼 수 있는 불순도 측정 지표는? 지니 지수(계수)
'ADsP' 카테고리의 다른 글
ADsP 1과목 데이터 이해 정리 (1) | 2023.08.17 |
---|---|
ADsP 31회 기출문제 정리 (0) | 2023.08.16 |
ADsP 32회 기출문제 (0) | 2023.08.15 |
ADsP 35회 기출문제 정리 (0) | 2023.08.14 |
ADsP 33회 기출문제 정리 (0) | 2023.08.14 |