* 세부과목 순서에 관계없이 헷갈리는 내용들을 정리하였습니다.
기업 내부의 DB 활용
1. CRM(Customer Relationship Management) : 고객 확보 및 유지를 위해 고객 이력 등을 고객관리에 활용
2. ERP(Enteprise Resource Planning) : 기업 경영/관리 효율 증대를 위해 기업활동 전반 모든 업무의 경영자원 관리
3. KMS(Knoledge Management System) : 조직 역량 강화를 위해 조직 내 인적자원들의 지식을 체계화하여 공유
* ITS(Intelligent Transport System) : 국가교통 DB를 구축하여 교통 소통을 목적으로 운전자에게 정보제공
빅데이터의 위기 요인
1. 사생활침해 : 익명화 기술의 한계, 정부의 감찰 -> 동의에서 책임으로(제공자의 동의보다 사용자의 책임으로 문제를 해결하자)
2. 책임 원칙 회손 : 예측 알고리즘을 통해 일으키지 않은 범죄에 대한 체포, 신용도 분석 알고리즘을 통한 대출 거부 -> 행동 결과에 대한 처벌
3. 데이터 오용 : 빅데이터는 과거 자료 기반이므로 미래 예측에는 한계가 있다. 포털사이트 노출도에 따른 매출 변화 -> 알고리즘에 대한 접근 허용
소비자 프라이버시 보호 3대 권고사항 - 미국 연방거래위원회
1. 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
2. 기업은 소비자에게 공유 정보 선택 옵션 제공 :
3. 소비자에게 수집된 정보 내용 공개 및 접근권 부여
데이터 분석가의 필요역량
1. Hard Skill : 빅데이터에 대한 이론적 지시, 분석 기술에 대한 숙련
2. Soft Skill : 통찰력 있는 분석, 설득력있는 전달(스토리텔링, 시각화), 커뮤니케이션
데이터 분석에 대한 용어
1. OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
2. Business Intelligence : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
3. Analytics : 의사결정을 위한 통계/수학적인 분석에 초점을 둔 기법
4. Data Mining : 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정
빅데이터 비즈니스 모델 개발에 활용되는 테크닉
1. 연관 규칙 학습 : 변인들 간에 주목할만한 상관관계가 있는지 찾는다. "커피를 구매하는 사람이 탄산음료를 더 많이 사는가?"
2. 유형분석 : 새로운 사건이 속하게 될 범주를 찾는다. "이 사용자는 어떤 특성을 가진 집단에 속하는가?"
3. 유전 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화시켜나간다. "최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?"
4. 기계학습 : 훈련 데이터로부터 학습한 특성을 호라용해 예측하는 일에 초점을 맞춘다. "스팸 메일"
5. 회귀분석 : 독립변수와 종속변수 사이의 관계를 파악한다. "구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?"
6. 감정분석 "새로운 환불정책에 대한 고객의 평가는 어떤가?"
7. 소셜 네트워크 분석 "특정인과 다른 사람이 몇 촌 정도의 관계인가?"
빅데이터의 기능 비유
석탄/철, 원유, 렌즈, 플랫폼
DIKW Hierarchy
피라미드 | 내용 | 예시 | |
Wisdom | 데이터에 대한 이해를 바탕으로 도출되는 창의적 아이디어 | A가 다른과목들도 B보다 성적이 좋을 것이다 | |
Knowledge | 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 | A가 공부를 더 잘한다 | |
Information | 데이터 이해를 통해 패턴을 인식하고 의미를 부여한 데이터 | A는 B보다 성적이 좋다, B는 국어보다 수학을 잘한다 | |
Data | 존재 형식을 불문하고, 가공하기 전의 순수한 수치나 기호 | 학생 A의 수학은 100점, 국어도 100점, 학생 B의 수학은 66점, 국어는 50점 |