반응형

* 세부과목 순서에 관계없이 헷갈리는 내용들을 정리하였습니다.

 

기업 내부의 DB 활용

1. CRM(Customer Relationship Management) : 고객 확보 및 유지를 위해 고객 이력 등을 고객관리에 활용

2. ERP(Enteprise Resource Planning) : 기업 경영/관리 효율 증대를 위해 기업활동 전반 모든 업무의 경영자원 관리

3. KMS(Knoledge Management System) : 조직 역량 강화를 위해 조직 내 인적자원들의 지식을 체계화하여 공유

 

* ITS(Intelligent Transport System) : 국가교통 DB를 구축하여 교통 소통을 목적으로 운전자에게 정보제공

 

빅데이터의 위기 요인

1. 사생활침해 : 익명화 기술의 한계, 정부의 감찰 -> 동의에서 책임으로(제공자의 동의보다 사용자의 책임으로 문제를 해결하자)

2. 책임 원칙 회손 : 예측 알고리즘을 통해 일으키지 않은 범죄에 대한 체포, 신용도 분석 알고리즘을 통한 대출 거부 -> 행동 결과에 대한 처벌

3. 데이터 오용 : 빅데이터는 과거 자료 기반이므로 미래 예측에는 한계가 있다. 포털사이트 노출도에 따른 매출 변화 -> 알고리즘에 대한 접근 허용

소비자 프라이버시 보호 3대 권고사항 - 미국 연방거래위원회

1. 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용

2. 기업은 소비자에게 공유 정보 선택 옵션 제공 : 

3. 소비자에게 수집된 정보 내용 공개 및 접근권 부여

 

데이터 분석가의 필요역량

1. Hard Skill : 빅데이터에 대한 이론적 지시, 분석 기술에 대한 숙련

2. Soft Skill : 통찰력 있는 분석, 설득력있는 전달(스토리텔링, 시각화), 커뮤니케이션

 

데이터 분석에 대한 용어

1. OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어

2. Business Intelligence : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

3. Analytics : 의사결정을 위한 통계/수학적인 분석에 초점을 둔 기법

4. Data Mining : 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정

 

빅데이터 비즈니스 모델 개발에 활용되는 테크닉

1. 연관 규칙 학습 : 변인들 간에 주목할만한 상관관계가 있는지 찾는다. "커피를 구매하는 사람이 탄산음료를 더 많이 사는가?"

2. 유형분석 : 새로운 사건이 속하게 될 범주를 찾는다. "이 사용자는 어떤 특성을 가진 집단에 속하는가?"

3. 유전 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화시켜나간다. "최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?"

4. 기계학습 : 훈련 데이터로부터 학습한 특성을 호라용해 예측하는 일에 초점을 맞춘다. "스팸 메일"

5. 회귀분석 : 독립변수와 종속변수 사이의 관계를 파악한다. "구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?"

6. 감정분석 "새로운 환불정책에 대한 고객의 평가는 어떤가?"

7. 소셜 네트워크 분석 "특정인과 다른 사람이 몇 촌 정도의 관계인가?"

 

빅데이터의 기능 비유

 석탄/철, 원유, 렌즈, 플랫폼

 

DIKW Hierarchy

피라미드 내용 예시
Wisdom 데이터에 대한 이해를 바탕으로 도출되는 창의적 아이디어 A가 다른과목들도 B보다 성적이 좋을 것이다
Knowledge 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 A가 공부를 더 잘한다
Information 데이터 이해를 통해 패턴을 인식하고 의미를 부여한 데이터 A는 B보다 성적이 좋다, B는 국어보다 수학을 잘한다
Data 존재 형식을 불문하고, 가공하기 전의 순수한 수치나 기호 학생 A의 수학은 100점, 국어도 100점, 학생 B의 수학은 66점, 국어는 50점

 

반응형

'이론, 자격증 > ADsP' 카테고리의 다른 글

시계열 예측  (0) 2020.02.14
반응형

정상성

1. 평균이 일정하다.
2. 분산이 시점에 의존하지 않는다.
3. 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
시계열 모형

자기회귀모형 (Autoregressive model)

현 시점의 자료 $Z_t$가 p시간 이전까지의 자료들로 설명이 되는 모형이다.
$Z_t = \phi_1Z_{t-1} + \phi_2Z_{t-2}+...+\phi_pZ_{t-p}+a_t$
이러한 모형을 p차 자기회귀모형 AR(p)라 한다.

이동평균모형 (Moving Average model)

현 시점의 자료가 유한개의 노이즈의 선형결합으로 주어진다. 즉, 정상성을 만족한다. $Z_t = a_t - \theta_1a_{t-1}-\theta_2a_{t-2}+...$

자기회귀누적이동평균모형 (Autoregressive Integrated Moving Average model)

 차분이나 변환을 통해 위의 모형들로 정상화할 수 없는 비정상 시계열모형을 나타낸다. $ARIMA(p,d,q)$로 세개의 차수를 이용하여 나타내며 각각 p는 AR모형, q는 MA모형 과의 관계를 나타내며, d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분 했는지를 나타낸다.
 q=0 인 경우, d번 차분하면 AR(p) 모형, 즉, 현시점의 자료가 p시점 전까지의 자료들로 설명이 되는 p차 자기회귀모형이 된다. 분해시계열 시계열에 영향을 주는 요인을 시계열에서 분리해 분석하는 방법이다.

 

1. 추세요인
시간에 따른 전체적인 변화의 경향성이 있는 경우로, 꼭 선형적일 필요는 없다.
2. 계절요인
고정된 주기(요일, 월, 계절 등)에 따라 자료가 변화하는 경우 계절요인이 있다고 한다.
3. 순환요인
명백한 이유가 없이 알려지지 않은 주기를 가지고 변화하는 경우 순환요인이 있다고 한다.
4. 불규칙요인
위 세가지의 요인으로 설명 할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙 요인이라 한다.

 

실습

(a) 아스완 댐에서 측정한 나일강의 연간 유입량 (b) 영국의 월별 폐질환 사망자

 (a)의 경우, 계절성을 보이지 않으며, 정상성 역시 만족하지 못한다.(평균이 계속 변화한다.) 반면, (b)의 경우, 매년 일정한 주기별로 사망자 수가 변화하는 계절성을 보인다.

ARIMA 모형

(a) 나일강 유입량 데이터의 1차 차분

 위의 그래프는 나일강 유입량의 차분($Z'_t := Z_t-Z_{t-1}$) 데이터이다. 차분하는 것은 추세요인이나 계절요인을 없애거나 줄이는데 도움이 될 수 있다. $Z_t$ 와는 달리 어느정도 정상성을 보이는(평균이 0으로 일정한) 것을 알 수 있다. 

자기상관함수와 편자기상관함수

 자기상관함수 $\rho_k$의 정의는 아래와 같다.
$\rho_k := corr(Z_t,Z_{t-k})$
 즉, 현재의 자료가 k 이전 시점의 자료와 얼마나 상관되어 있는가를 나타낸다. 또한 편자기상관함수의 경우, $\phi_{kk}$의 정의는 아래와 같으며,

$\phi_{kk} := corr(e_{t},e_{t-k})$

여기서 e_{t}는 $Z_{t-1}$부터 $Z_{t-k}$까지의 데이터들로 $Z_t$에 대하여 선형회귀분석을 한 결과이고, $e_{t-k}$는 $Z_{t-k}$만으로 $Z_t$에 대하여 회귀분석한 결과를 나타내며, 편자기상관함수는 결국 $Z_{t-1}, ... Z_{t-k-1}$을 제외하고 오직 $Z_{t-k}$만으로 $Z_t$값을 얼마나 설명할 수 있는지를 나타낸다.

(a) $Z'_t$ 의 자기상관함수 그래프 (b) 편자기상관함수

 위의 그래프를 보면 lag=0 일때는 자기자신과 자기자신의 상관관계이므로 당연히 1이 되고, lag=1, 8 일때, ACF의 값($\rho_{k=1,8}$)이 유의수준 이상의 값을 보여주는데, 이는 $Z_t$가 $Z_{t-1}, Z_{t-8}$ 과 상관관계가 있음을 의미한다. ACF 그래프는 평균이동모형의 차수를 알아내는데에 도움이 될수 있는데, q 값 이후 급격히 0에 가까워지는 것은 MA(q) 모형의 특징이다.

 또한, 편자기상관함수의 경우, lag가 커짐에 따라 서서히 0으로 떨어지는 경향성을 보여주는데, 이는 자기회귀 모형의 특징이다. AR(p) 모형의 경우, PACF 값이 p값 이후 급격히 0으로 감소한다. 

 

 

 

Reference

1. 데이터 분석 전문가 가이드, 한국데이터진흥원

2. https://freshrimpsushi.tistory.com/1209

3.https://datascienceschool.net/view-notebook/8030f5931c1b4cf68a46c2a194b3a1c6/

반응형

'이론, 자격증 > ADsP' 카테고리의 다른 글

ADsP 1과목 데이터의 이해  (0) 2020.02.17

+ Recent posts