컴공돌이의 취미 블로그
빅데이터의 이해 [1]. 빅데이터 정의 본문
빅데이터의 이해 [1]. 빅데이터 정의
● 빅데이터의 정의
→ IBM에서 처음으로 빅데이터라는 단어를 공식적으로 사용하기 시작
→ 아카데미적 용어보다는 비지니스적 용어의 성격을 가지고 있음
→ Gartner의 정의 (2012) : 빅데이터는 양이 매우 많고(high-volume), 증가 속도가 매우 빠르고(high-velocity), 종류가 매우 다양한(high-variety) 정보를 말함 (= 3V)
→ De Maurio와 그 외 사람들의 정의 (2016) : 빅데이터는 양이 매우 많고(volume), 증가속도가 매우 빠르고(velocity), 종류가 매우 다양한(variety) 정보이고, 특정한 기술과 분석 방법에 의해 가치(value)를 얻을 수 있음
● 빅데이터의 특징
→ 5V's : Volume(용량), Variety(다양성), Velocity(속도), Value(가치), Veracity(진실성)
● 정보가치사슬(Information Value Chain)
1. 데이터(Data) : 객관적 사실(Fact)
2. 정보(Information) : 데이터(Data) + 시스템(System)
→ 데이터를 가공하여 정보를 생성
→ 정보의 가치는 사용자에 따라 변화하므로 주관적이다.
3. 지식(Knowledge) : 정보(Information) + 경험(Experience)
→ 정보에 경험을 더해 지식을 쌓게 된다.
→ 지식에는 표층지식과 심층지식이 있는데 표층지식이란 데이터로부터 얻어지는 대부분의 지식을 말하고 심층지식은 인과관계를 설명해줄 수 있는 지식을 의미
● 빅데이터로부터 얻을 수 있는 기회 (= 데이터로부터의 지식을 얻게되면 얻을 수 있는 기회)
1. 더 좋은 의사결정(Better Informed Decision)
2. 패턴, 추세, 예외적 상황을 인식하는데 도움이 됨(Hidden Insight)
3. 기업의 업무 처리 절차의 자동화(Automate Business Process)
● 빅데이터를 이해해야 하는 이유
1. 지식은 기업의 핵심 자산
2. 대용량 거래처리 시스템의 보급 확산(SNS/Mobile, IOT)
3. 의사결정의 지식기반 자동화
4. 지식획득 애로의 극복
● 빅데이터 사례
→ 빅데이터는 금융, 유통, 통신, 생산공정, 병원의무기록, 항공사예약자료 등 여러 분야에서 활용될 수 있음
1. 신용카드사
→ 신용한도 관리, FDS(Fraud Detection System)에 빅데이터 분석을 사용함으로써 위험을 관리
2. 월마트(Walmart)
→ 온라인, 오프라인별로 고객이 구입하는 상품의 조사, 트위터의 현재 동향, 월드시리즈가 매출에 미치는 영향, 지역별 기후 변화가 매출에 미치는 영향 등의 내용을 분석한 결과 10~15%의 온라인 매출 증가로 약 10억 달러의 수익증가를 실현
3. 메디데이터(Medidata)
→ 클라우드 시스템을 활용해 환자 정보를 수집하고 분석해서 비용이 적게들고 시간을 줄일 수 있도록 도와줌
4. 유유제약
→ SNS 데이터 26억 건을 분석한 결과 '멍-여성'의 키워드 조합이 '멍-아이'보다 월등히 빈도가 높음을 발견하였고 목표고객층을 성인여성으로 변경하여 광고를 제작하고 캠페인을 진행한 결과 전년 대비 매출액이 50% 증가
→ 빅데이터는 이밖에도 고객관계관리, 위험관리분야, 의료분야, 스포츠, 제조분야, 부정행위 적발과 관리분야, 정부기관분야, 주식가격 및 환율 변동 예측분야 등에 사용됨
● 빅데이터에 관한 관점
1. Very Very Large Data
2. Unstructured Data
3. External Data
● 빅데이터 관련 용어
1. Data Fishing, Data Dredging, Data Archeology
→ 이론적 뒷받침 없이 한정된 데이터에 의존해 결론을 도출하려는 행위
2. KDD(Knowledge Discovery in the large Databases)
→ 데이터 마이닝과 같은 의미
3. Data Mining
→ 커다란 데이터베이스에서 지식을 발견해내는 것
4. BI(Business Intelligence)
→ Data Warehouse를 구축하고 조직 내 Online Analytical Processing의 보급 및 활용을 확대하는 것
5. BAO(Business Analytics and Optimization)
→ 데이터마이닝과 경영학의 결합을 강조하기 위해 사용하는 언어
6. Data Science, Data Engineering
→ 데이터를 생성, 축적하는 분야를 Data Engineering 이라하고, 생성하고 축적한 데이터를 활용하는 분야를 Data Science 즉 데이터과학 이라고 함
● 데이터 마이닝
→ 데이터 마이닝의 기반기술에는 인공지능/기계학습, 통계학, 데이터베이스, 정보검색 등이 있음
→ 데이터 마이닝 도구에는 SAS Enterprise Miner, IBM SPSS Modeler, R Studio, Python 등이 있음
'Study > 빅데이터의 이해' 카테고리의 다른 글
빅데이터의 이해 [3]. 빅데이터와 AI (0) | 2017.11.02 |
---|---|
빅데이터의 이해 [2]. 데이터 생애주기(Data Life Cycle) (0) | 2017.09.18 |