728x90

빅데이터 3V

Volume, Variety, Velocity(처리속도)

5V

+ Value, Veracity(정확성)

7V

+ Validity, Volatility(휘발성)

데이터 크기

- byte < kb < mb < gb < tb < pb < e(exa)b < z(zetta)b < y(yotta)b < b(bronto)b < ge(geop)b

WBS(작업분할구조도)

- 프로젝트 수행에 필요한 예산, 소요기간 및 현재의 IT 환경 등을 고려한 분석결과를 작성하는 문서

- 데이터 분석 과제 정의 -> 데이터 준비, 탐색 -> 데이터 분석 모델링, 검증 -> 산출물 정리

빅데이터 분석 절차

- 문제인식 -> 관련 연구조사 -> 모형화 -> 자료수집 -> 자료분석 -> 분석결과 제시

- (NCS에서는) 도메인 이슈 도출(요건 정의서 작성) -> 분석목표 수립(분석목표정의서 작성) -> 프로젝트 계획 수립(WBS 작성) -> 보유 데이터 자산 확인 -> 분석 결과 시각화

모형화 단계

- 주어진 문제의 복잡한 현상을 문제의 본질과 관련된 제어 가능한 변수들로 추려서 단순화하는 과정으로서, 많은 변수들이 포함된 문제로부터 그 특성을 잘 나타내는 결정적인 변수들을 찾아낸다. 제어 가능한 변수들을 선정하는 단계.

빅데이터 분석 프로젝트 수행을 위한 로드맵

- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 게획 및 배분

비즈니스 모델

- 기업이 수익을 얻기 위한 일련의 활동, '수익모델'로 정의. 빅데이터를 이용하여 경제적 수익을 창출할 수 있는 모든 사업 형태

빅데이터 서비스 모델

- 빅데이터 서비스 제공자가 단말, 장비 공급자와 소프트웨어 공급자로부터 구매한 인프라를 이용하여 고객에게 데이터 처리, 데이터 및 정보 제공, 솔루션 제공, 교육 및 컨설팅 제공 등의 서비스를 제공하는 방법

정형데이터

- 업무처리, 매개거래, 로그데이터, 시계열 데이터

- ETL 등을 이용한 수집

반정형데이터

- 데이터 내부에 데이터 구조에 대한 메타 정보 포함

- HTML, XML, JSON, RSS, 웹로그, 센서 데이터 등

비정형데이터

- 소셜미디어, 고객 서비스, 이메일, 자유 형식의 텍스트

- 온도, QR코드, RFID, GPS, 오디오, 비디오 등

관계형 데이터베이스 용어

- 도메인 : 하나의 속성이 취할 수 있는 값의 집합

- 튜플 : 행을 나타내는 말로 레코드와 같은 의미

- Cardinality : 하나의 relation에서 튜플의 개수

- Degree : 속성의 수

- Attribute : Table에서 열을 나타내는 말로 필드와 같은 의미

하둡 시스템은 HDFS와 Map Reduce System으로 이루어짐

- MapReduce 데이터 처리 과정 : Map(Key - value) -> Shuffle -> Reduce

- HDFS : 마스터 노드인 Name Node와 슬레이브 노드인 Date Node로 구성

GPGPU(General Purpose Computing on Graphics Processing Unit)

- 그래픽 가속기 중심. 이미지 연산 처리에 특화. CUDA 통합 개발 환경 이용

- 머신러닝과 딥러닝을 이용한 이미지 및 음성 인식 등에 활용

YARN(Yet Another Resource Negotiator)

- Hadoop의 MapReduce 처리 부분을 새롭게 만든 자원 관리 플랫폼

- 마스터 노드인 Resource Manager와 슬레이브 노드인 Node Manager로 구성

- 노드 매니저는 노드의 자원 상황 감시, 리소스 매니저에 노드를 요청하여 컨테이너를 동작시킴.

데이터 속성(중 척도)

- 명목 : 성별, 이메일 주소, 인터넷 계정, 옷 색깔

- 서열 : 고객등급, 순위, 직급, 영화평점

- 등간 : 온도, 지능지수 (비율척도와 다르게 더하더라도 2배의 의미를 갖지 못함, 절대 영점이 없음)

- 비율 : 몸무게, 매출액, 질량, 나이, 개수, 길이 (사칙연산이 가능한 척도)

반정형 및 비정형 데이터를 정형 데이터로 변환하는 과정

- 데이터 구조 정의 -> 수행 코드 정의 -> 프로그램 작성 -> DB저장

데이터 품질 관리 요소

- 정확성(데이터 편향성과 분산), 완전성(데이터 누락 여부, 결측값의 비율), 적시성(Timeliness), 일관성(데이터 상하위 관계에서의 일치성)

정형 데이터의 품질 기준

- 정확성, 완전성, 일관성, 유일성, 유효성

비정형 데이터의 품질 기준

- 기능성, 신뢰성, 사용성, 효율성, 이식성(Portablity)

Opinion Mining

- 상품이나 서비스에 대한 시장 규모를 예측하거나 소비자의 반응 및 입소문을 분석하는데 활용하는 기술

- 특정 이슈나 인물, 이벤트 등과 같은 원천데이터에서 의견, 평가, 태도, 감정 등과 같은 주관적 정보를 식별, 추출

Apache Sqoop

- 테이블과 같이 고정된 Column에 데이터 저장

- 하둡 플랫폼과 연계하여 관계형 데이터베이스 통합 분석이 가능

- 모든 적재 과정을 자동화하고 병렬처리 방식으로 작업

Apache Flume

- 안정적이고 신뢰성 있는 분산 서비스 환경 제공

- Streaming 데이터 흐름에 기반을 둔 간단하고 유연한 구조

- 네트워크 트래픽, 이메일, 로그 및 센서 등의 반정형 데이터 수집용으로 사용

Scrapy

- 데이터마이닝, 정보처리, 이력 기록 등과 같은 다양한 애플리케이션에 활용

- 데이터 수집이 용이하고 logging 기능 지원

- 파이썬 기반의 프레임워크, 텍스트, 이미지, 동영상, 소셜 데이터 등 비정형 데이터 수집에 활용

데이터의 존재론적 특성으로 구분한다면,

- 계량(quantitative) 데이터와 비계량(qualitative) 데이터로 구분

Apache Cassandra

- 방대한 데이터를 처리하기 위해 분산 시스템을 이용하며, 오픈소스 DBMS로 페이스북에서 개발되었으나 아파치 재단의 프로젝트로 관리되고 있다. 오픈소스 분산형 NoSQL을 사용하고 단일 장애점 없이 고성능을 제공하면서 수많은 서버들 사이의 대용량 데이터를 관리하기 위해 설계되었다. 여러 데이터 센터에 걸쳐 cluster를 지원하고 masterless 비동기 replication을 통해 모든 client에 대한 낮은 latency 운영을 허용한다.

데이터 결측값

- 완전 무작위 결측 : 관측된 혹은 관측되지 않은 다른 변수와 아무 관련이 없는 경우. 단순 무작위 표본 추출을 통해 보강 가능

- 무작위 결측 : 관측된 다른 변수와 연관되어 있고, 비관측된 값들과 연관되어 있지 않은 경우

- 비무작위 결측 : 완전 무작위 또는 무작위 결측이 아닌 경우

데이터 결측값 보완 방법

- 평균치 삽입법, 보삽법(interpolation method), 평가치 추정법(estimating values approach)

Presto

- Facebook에서 개발된 Hadoop을 위한 SQL 처리 엔진

- SQL 언어를 사용하며 데이터를 빠르게 분석

BigQeury

- 구글에서 개발하였으며 대용량 데이터 처리엔진으로 사용

- 빅쿼리 API를 이용한 질의 전송 기능, 분석 데이터를 구글에 업로드 가능

Summingbird

- Storm과 Hadoop을 결합한 streaming MapReduce 시스템

- 배치 및 스트리밍 작업을 요구하는 application 수행

- 수 초 안에 사람들의 검색의도를 파악해 의도에 맞는 검색 결과 제시

Esper

- 실시간 처리용 인메모리 기술, 여러 데이터 소스에서 발생된 이벤트로부터 의미 있는 데이터 추출

- 실시간 이벤트 처리를 위한 오픈소스, java 기반 소프트웨어, 추출된 데이터에 대응하는 작업 수행

데이터 필터링

- 데이터 활용 목적에 맞지 않는 정보를 제거하여 분석 시간을 단축하고, 저장 공간을 효율적으로 활용하며, 비정형 데이터는 데이터마이닝을 통해 오류나 중복을 제거하여 저품질 데이터를 개선, 처리한다. 이 경우 자연어 치리 및 기게학습과 같은 최신 기술을 적용한다.

데이터 후처리 작업

- 데이터 통합(데이터 분석에 용이하도록 일관성 있는 형식으로 변환하는 작업), 데이터 축소(고유한 특성은 손상되지 않도록 하면서 불필요한 데이터를 제거), 데이터 변환

이상값 검출 방법

- mean : 정규분포 평균에서 표준편차의 최대, 최소값 범위에 속하지 않는 값

- density : 측정값의 LOF(Local Outlier Factror)를 계산하여 이 값이 가장 큰 데이터를 이상값으로 추정

- likelihood : 베이즈정리에 의해 데이터셋이 가지는 두가지 샘플링(정상, 이상)에 대한 발생 확률로 판별

- clustering : 작은 크기의 클러스터나 클러스터 사이의 거리를 계산하여 먼 경우 이상치로 판별

728x90

+ Recent posts