컴공돌이의 취미 블로그

빅데이터의 이해 [1]. 빅데이터 정의 본문

Study/빅데이터의 이해

빅데이터의 이해 [1]. 빅데이터 정의

컴공돌이​​ 2017. 9. 13. 23:43

빅데이터의 이해 [1]. 빅데이터 정의


빅데이터의 정의

→ IBM에서 처음으로 빅데이터라는 단어를 공식적으로 사용하기 시작

→ 아카데미적 용어보다는 비지니스적 용어의 성격을 가지고 있음

Gartner의 정의 (2012) : 빅데이터는 양이 매우 많고(high-volume), 증가 속도가 매우 빠르고(high-velocity), 종류가 매우 다양한(high-variety) 정보를 말함 (= 3V)

→ De Maurio와 그 외 사람들의 정의 (2016) : 빅데이터는 양이 매우 많고(volume), 증가속도가 매우 빠르고(velocity), 종류가 매우 다양한(variety) 정보이고, 특정한 기술과 분석 방법에 의해 가치(value)를 얻을 수 있음


● 빅데이터의 특징

→ 5V's : Volume(용량), Variety(다양성), Velocity(속도), Value(가치), Veracity(진실성


● 정보가치사슬(Information Value Chain)

1. 데이터(Data) : 객관적 사실(Fact)

2. 정보(Information) : 데이터(Data) + 시스템(System)

→ 데이터를 가공하여 정보를 생성

→ 정보의 가치는 사용자에 따라 변화하므로 주관적이다.

3. 지식(Knowledge) : 정보(Information) + 경험(Experience)

→ 정보에 경험을 더해 지식을 쌓게 된다.

→ 지식에는 표층지식과 심층지식이 있는데 표층지식이란 데이터로부터 얻어지는 대부분의 지식을 말하고 심층지식은 인과관계를 설명해줄 수 있는 지식을 의미


● 빅데이터로부터 얻을 수 있는 기회 (= 데이터로부터의 지식을 얻게되면 얻을 수 있는 기회)

1. 더 좋은 의사결정(Better Informed Decision)

2. 패턴, 추세, 예외적 상황을 인식하는데 도움이 됨(Hidden Insight)

3. 기업의 업무 처리 절차의 자동화(Automate Business Process)


● 빅데이터를 이해해야 하는 이유

1. 지식은 기업의 핵심 자산

2. 대용량 거래처리 시스템의 보급 확산(SNS/Mobile, IOT)

3. 의사결정의 지식기반 자동화

4. 지식획득 애로의 극복


● 빅데이터 사례

→ 빅데이터는 금융, 유통, 통신, 생산공정, 병원의무기록, 항공사예약자료 등 여러 분야에서 활용될 수 있음


1. 신용카드사

→ 신용한도 관리, FDS(Fraud Detection System)에 빅데이터 분석을 사용함으로써 위험을 관리

2. 월마트(Walmart)

→ 온라인, 오프라인별로 고객이 구입하는 상품의 조사, 트위터의 현재 동향, 월드시리즈가 매출에 미치는 영향, 지역별 기후 변화가 매출에 미치는 영향 등의 내용을 분석한 결과 10~15%의 온라인 매출 증가로 약 10억 달러의 수익증가를 실현

3. 메디데이터(Medidata)

→ 클라우드 시스템을 활용해 환자 정보를 수집하고 분석해서 비용이 적게들고 시간을 줄일 수 있도록 도와줌

4. 유유제약

→ SNS 데이터 26억 건을 분석한 결과 '멍-여성'의 키워드 조합이 '멍-아이'보다 월등히 빈도가 높음을 발견하였고 목표고객층을 성인여성으로 변경하여 광고를 제작하고 캠페인을 진행한 결과 전년 대비 매출액이 50% 증가


→ 빅데이터는 이밖에도 고객관계관리, 위험관리분야, 의료분야, 스포츠, 제조분야, 부정행위 적발과 관리분야, 정부기관분야, 주식가격 및 환율 변동 예측분야 등에 사용됨


● 빅데이터에 관한 관점

1. Very Very Large Data

2. Unstructured Data

3. External Data


● 빅데이터 관련 용어

1. Data Fishing, Data Dredging, Data Archeology

→ 이론적 뒷받침 없이 한정된 데이터에 의존해 결론을 도출하려는 행위

2. KDD(Knowledge Discovery in the large Databases)

→ 데이터 마이닝과 같은 의미

3. Data Mining

→ 커다란 데이터베이스에서 지식을 발견해내는 것

4. BI(Business Intelligence)

→ Data Warehouse를 구축하고 조직 내 Online Analytical Processing의 보급 및 활용을 확대하는 것

5. BAO(Business Analytics and Optimization)

→ 데이터마이닝과 경영학의 결합을 강조하기 위해 사용하는 언어

6. Data Science, Data Engineering

→ 데이터를 생성, 축적하는 분야를 Data Engineering 이라하고, 생성하고 축적한 데이터를 활용하는 분야를 Data Science 즉 데이터과학 이라고 함


● 데이터 마이닝

→ 데이터 마이닝의 기반기술에는 인공지능/기계학습, 통계학, 데이터베이스, 정보검색 등이 있음

→ 데이터 마이닝 도구에는 SAS Enterprise Miner, IBM SPSS Modeler, R Studio, Python 등이 있음


반응형